論文の概要: Dynamic Masking for Improved Stability in Spoken Language Translation
- arxiv url: http://arxiv.org/abs/2006.00249v2
- Date: Mon, 31 May 2021 22:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 18:00:07.383910
- Title: Dynamic Masking for Improved Stability in Spoken Language Translation
- Title(参考訳): 音声翻訳における動的マスキングによる安定性向上
- Authors: Yuekun Yao and Barry Haddow
- Abstract要約: 翻訳品質を犠牲にすることなく、マスクが遅延フリックのトレードオフを改善する方法を示す。
考えられる解決策は、MTシステムの出力に固定遅延(mask)を追加することである。
このマスクを動的に設定する方法を示し、翻訳品質を犠牲にすることなくレイテンシ・フリックストレードオフを改善する。
- 参考スコア(独自算出の注目度): 8.591381243212712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For spoken language translation (SLT) in live scenarios such as conferences,
lectures and meetings, it is desirable to show the translation to the user as
quickly as possible, avoiding an annoying lag between speaker and translated
captions. In other words, we would like low-latency, online SLT. If we assume a
pipeline of automatic speech recognition (ASR) and machine translation (MT)
then a viable approach to online SLT is to pair an online ASR system, with a a
retranslation strategy, where the MT system re-translates every update received
from ASR. However this can result in annoying "flicker" as the MT system
updates its translation. A possible solution is to add a fixed delay, or "mask"
to the the output of the MT system, but a fixed global mask introduces
undesirable latency to the output. We show how this mask can be set
dynamically, improving the latency-flicker trade-off without sacrificing
translation quality.
- Abstract(参考訳): 会議や講義,会議などのライブシナリオにおける音声言語翻訳(SLT)では,話者と翻訳文の間に迷惑な遅延が生じないように,できるだけ早くユーザへの翻訳を示すことが望ましい。
言い換えれば、低レイテンシのオンラインSLTが欲しいのです。
自動音声認識(ASR)と機械翻訳(MT)のパイプラインを仮定すると、オンラインのSLTはオンラインのASRシステムと再翻訳戦略を組み合わせ、MTシステムはASRから受信した更新をすべて再翻訳する。
しかし、mtシステムが翻訳を更新すると、これは「フリック」になる可能性がある。
可能な解決策は、mtシステムの出力に固定遅延または「マスク」を追加することであるが、固定グローバルマスクは、望ましくない遅延を出力に導入する。
このマスクを動的に設定する方法を示し、翻訳品質を犠牲にすることなくレイテンシ・フリックストレードオフを改善する。
関連論文リスト
- Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Simultaneous Translation for Unsegmented Input: A Sliding Window
Approach [8.651762907847848]
自動セグメンタを使わずに生のASR出力(オンラインまたはオフライン)を変換するためのスライディングウインドウ手法を提案する。
英語-ドイツ語-英語-チェコ語の実験では,通常のASR-セグメンタパイプラインよりも1.3-2.0のBLEU点が向上した。
論文 参考訳(メタデータ) (2022-10-18T11:07:28Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - Multilingual Unsupervised Neural Machine Translation with Denoising
Adapters [77.80790405710819]
単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。
この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。
本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-20T10:18:29Z) - MeetDot: Videoconferencing with Live Translation Captions [18.60812558978417]
本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
論文 参考訳(メタデータ) (2021-09-20T14:34:14Z) - A Technical Report: BUT Speech Translation Systems [2.9327503320877457]
本稿では,BUTの音声翻訳システムについて述べる。
システムは英語$longrightarrow$Germanのオフライン音声翻訳システムである。
オラクル入力テキストと比較して、ASR仮説を翻訳する際には、大きな劣化が観察される。
論文 参考訳(メタデータ) (2020-10-22T10:52:31Z) - Cascaded Models With Cyclic Feedback For Direct Speech Translation [14.839931533868176]
本稿では,自動音声認識(ASR)と機械翻訳(MT)のカスケードを用いて,ドメイン内直接音声翻訳データを活用する手法を提案する。
同一アーキテクチャと同一データのコンポーネントを用いたエンドツーエンドの音声翻訳と比較すると、LibriVoxDeEnでは最大3.8 BLEU点、ドイツ語と英語の音声翻訳ではCoVoSTでは最大5.1 BLEU点が得られた。
論文 参考訳(メタデータ) (2020-10-21T17:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。