論文の概要: Joint Training And Decoding for Multilingual End-to-End Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2503.11080v1
- Date: Fri, 14 Mar 2025 04:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:15.528092
- Title: Joint Training And Decoding for Multilingual End-to-End Simultaneous Speech Translation
- Title(参考訳): 多言語エンドツーエンド同時音声翻訳のための共同学習と復号化
- Authors: Wuwei Huang, Renren Jin, Wen Zhang, Jian Luan, Bin Wang, Deyi Xiong,
- Abstract要約: エンドツーエンド音声翻訳(ST)に関する最近の研究は,複数言語間STとエンドツーエンド同時STの探索を円滑に進めている。
実シナリオにおけるアプリケーションに近い一対多の多言語設定におけるエンドツーエンドの同時音声翻訳について検討する。
- 参考スコア(独自算出の注目度): 43.53370615449918
- License:
- Abstract: Recent studies on end-to-end speech translation(ST) have facilitated the exploration of multilingual end-to-end ST and end-to-end simultaneous ST. In this paper, we investigate end-to-end simultaneous speech translation in a one-to-many multilingual setting which is closer to applications in real scenarios. We explore a separate decoder architecture and a unified architecture for joint synchronous training in this scenario. To further explore knowledge transfer across languages, we propose an asynchronous training strategy on the proposed unified decoder architecture. A multi-way aligned multilingual end-to-end ST dataset was curated as a benchmark testbed to evaluate our methods. Experimental results demonstrate the effectiveness of our models on the collected dataset. Our codes and data are available at: https://github.com/XiaoMi/TED-MMST.
- Abstract(参考訳): 本稿では, 実シナリオにおける応用に近づいた一対多の多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対多対
このシナリオでは、個別のデコーダアーキテクチャと共同同期トレーニングのための統一アーキテクチャについて検討する。
言語間の知識伝達をさらに探求するため,提案する統合デコーダアーキテクチャ上での非同期トレーニング戦略を提案する。
マルチウェイアライメントされたマルチリンガル・エンド・ツー・エンドSTデータセットをベンチマークベッドとして評価した。
実験の結果,収集したデータセットに対するモデルの有効性が示された。
私たちのコードとデータは、https://github.com/XiaoMi/TED-MMST.comで利用可能です。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - End-to-End Speech Translation for Code Switched Speech [13.97982457879585]
コードスイッチング(英: Code switch, CS)とは、異なる言語の単語やフレーズを相互に使用する現象である。
我々は,音声翻訳作業(ST)における英語とスペイン語の会話の文脈において,CSに着目し,書き起こしと翻訳の両方を生成・評価する。
我々のSTアーキテクチャ、特に双方向のエンドツーエンドアーキテクチャは、CS訓練データを使用しなくても、CS音声でよく機能することを示す。
論文 参考訳(メタデータ) (2022-04-11T13:25:30Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - An Empirical Study of End-to-end Simultaneous Speech Translation
Decoding Strategies [17.78024523121448]
本稿では,エンドツーエンドの同時音声翻訳のためのデコード戦略を提案する。
オフラインモードで訓練されたエンドツーエンドモデルを活用し、2つの言語ペアの実証的研究を行う。
論文 参考訳(メタデータ) (2021-03-04T18:55:40Z) - An Empirical Study of Cross-Lingual Transferability in Generative
Dialogue State Tracker [33.2309643963072]
多言語事前学習セq2seqモデルを用いた言語間対話状態追跡システムの転送可能性について検討した。
また、我々のアプローチの低言語間移動可能性も調べ、調査と議論を行う。
論文 参考訳(メタデータ) (2021-01-27T12:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。