論文の概要: Zero-shot Speech Translation
- arxiv url: http://arxiv.org/abs/2107.06010v1
- Date: Tue, 13 Jul 2021 12:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 21:27:15.895294
- Title: Zero-shot Speech Translation
- Title(参考訳): ゼロショット音声翻訳
- Authors: Tu Anh Dinh
- Abstract要約: 音声翻訳(英: Speech Translation、ST)とは、ある言語の音声を他の言語のテキストに変換するタスクである。
エンドツーエンドのアプローチでは、エラーの伝播を避けるために1つのシステムのみを使用するが、データ不足のため、利用は困難である。
学習中に目に見えない言語のペアを翻訳できるゼロショット翻訳について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech Translation (ST) is the task of translating speech in one language
into text in another language. Traditional cascaded approaches for ST, using
Automatic Speech Recognition (ASR) and Machine Translation (MT) systems, are
prone to error propagation. End-to-end approaches use only one system to avoid
propagating error, yet are difficult to employ due to data scarcity. We explore
zero-shot translation, which enables translating a pair of languages that is
unseen during training, thus avoid the use of end-to-end ST data. Zero-shot
translation has been shown to work for multilingual machine translation, yet
has not been studied for speech translation. We attempt to build zero-shot ST
models that are trained only on ASR and MT tasks but can do ST task during
inference. The challenge is that the representation of text and audio is
significantly different, thus the models learn ASR and MT tasks in different
ways, making it non-trivial to perform zero-shot. These models tend to output
the wrong language when performing zero-shot ST. We tackle the issues by
including additional training data and an auxiliary loss function that
minimizes the text-audio difference. Our experiment results and analysis show
that the methods are promising for zero-shot ST. Moreover, our methods are
particularly useful in the few-shot settings where a limited amount of ST data
is available, with improvements of up to +11.8 BLEU points compared to direct
end-to-end ST models and +3.9 BLEU points compared to ST models fine-tuned from
pre-trained ASR model.
- Abstract(参考訳): 音声翻訳 (st) は、ある言語でスピーチを別の言語でテキストに変換する作業である。
自動音声認識 (ASR) と機械翻訳 (MT) システムを用いたSTの従来のケースドアプローチは, 誤りの伝播が困難である。
エンドツーエンドのアプローチでは、エラー伝播を避けるために1つのシステムのみを使用するが、データ不足のため採用が困難である。
ゼロショット変換は、トレーニング中に見つからない言語のペアを翻訳するので、エンドツーエンドのSTデータの使用を避けることができる。
ゼロショット翻訳は多言語機械翻訳では有効であることが示されているが、音声翻訳では研究されていない。
ASRおよびMTタスクのみで訓練されるが、推論時にSTタスクを実行できるゼロショットSTモデルを構築しようとする。
課題は、テキストとオーディオの表現が著しく異なるため、モデルが異なる方法でasrとmtタスクを学習するため、ゼロショットを実行することは自明ではない。
我々は、追加のトレーニングデータと、テキストとオーディオの違いを最小限に抑える補助的損失関数を含めることで、この問題に取り組む。
実験結果と解析結果から, ゼロショットSTに期待できることが判明した。
さらに,本手法は,事前訓練されたASRモデルから微調整したSTモデルと比較して,直接の終端STモデルに比べて最大11.8BLEU点,+3.9BLEU点の改善など,限られたSTデータが得られる数ショット環境では特に有用である。
関連論文リスト
- Pushing the Limits of Zero-shot End-to-End Speech Translation [15.725310520335785]
データ不足とテキストモダリティ間のモダリティギャップは、エンドツーエンド音声翻訳(ST)システムの2つの大きな障害である。
ゼロショットSTの手法であるZeroSwotを導入し、ペアSTデータを使わずにモダリティギャップをブリッジする。
実験の結果,STデータを使わずにモダリティギャップを効果的に塞ぐことが可能であること,MuST-CとCoVoSTで得られた結果が本手法の優位性を示している。
論文 参考訳(メタデータ) (2024-02-16T03:06:37Z) - End-to-End Speech-to-Text Translation: A Survey [0.0]
音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。
機械翻訳(MT)モデルと同様に、自動音声認識(ASR)は従来のST翻訳において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-12-02T07:40:32Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Large-Scale Streaming End-to-End Speech Translation with Neural
Transducers [35.2855796745394]
本稿では,音声信号を他の言語で直接テキストに変換するために,ストリームエンドツーエンド音声翻訳(ST)モデルを提案する。
ASRとテキストベースの機械翻訳(MT)を行うカスケードSTと比較して、提案した変換器トランスデューサ(TT)ベースのSTモデルは、推論遅延を大幅に削減する。
TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。
論文 参考訳(メタデータ) (2022-04-11T18:18:53Z) - Tackling data scarcity in speech translation using zero-shot
multilingual machine translation techniques [12.968557512440759]
ゼロショット翻訳にはいくつかの手法が提案されている。
音声翻訳データとテキスト翻訳データに基づいて訓練されたSTモデルを構築することにより,これらのアイデアが音声翻訳に適用できるかどうかを検討する。
これらの技術は制限されたSTデータを用いて数発のSTに適用され、ASRモデルから微調整されたSTモデルと比較して、直接のSTと+3.1のBLEUポイントに比べて最大+12.9のBLEUポイントの改善がなされた。
論文 参考訳(メタデータ) (2022-01-26T20:20:59Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。
すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文 参考訳(メタデータ) (2021-10-09T07:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。