論文の概要: Multilingual Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2203.14835v2
- Date: Tue, 29 Mar 2022 07:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 10:58:38.148875
- Title: Multilingual Simultaneous Speech Translation
- Title(参考訳): 多言語同時音声翻訳
- Authors: Shashank Subramanya, Jan Niehues
- Abstract要約: オンライン音声翻訳システムを構築する一般的なアプローチは、オフライン音声翻訳用に構築されたモデルを活用することである。
オンライン音声翻訳における多言語モデルと異なるアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 12.376309678270275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications designed for simultaneous speech translation during events such
as conferences or meetings need to balance quality and lag while displaying
translated text to deliver a good user experience. One common approach to
building online spoken language translation systems is by leveraging models
built for offline speech translation. Based on a technique to adapt end-to-end
monolingual models, we investigate multilingual models and different
architectures (end-to-end and cascade) on the ability to perform online speech
translation. On the multilingual TEDx corpus, we show that the approach
generalizes to different architectures. We see similar gains in latency
reduction (40% relative) across languages and architectures. However, the
end-to-end architecture leads to smaller translation quality losses after
adapting to the online model. Furthermore, the approach even scales to
zero-shot directions.
- Abstract(参考訳): 会議や会議などのイベント中に同時に音声翻訳を行うために設計されたアプリケーションは、優れたユーザエクスペリエンスを提供するために翻訳テキストを表示しながら、品質と遅延のバランスを取る必要がある。
オンライン音声翻訳システムを構築する一般的なアプローチは、オフライン音声翻訳用に構築されたモデルを活用することである。
エンド・ツー・エンドのモノリンガルモデルを適応させる手法に基づいて、オンライン音声翻訳を行う上での多言語モデルと異なるアーキテクチャ(エンド・ツー・エンド、カスケード)について検討する。
多言語TEDxコーパスでは、アプローチが異なるアーキテクチャに一般化されることを示す。
言語やアーキテクチャのレイテンシ低減(40%相対)も同様に向上しています。
しかし、エンドツーエンドアーキテクチャは、オンラインモデルに適応した後、翻訳品質の損失を小さくする。
さらに、このアプローチはゼロショット方向までスケールする。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Do Multilingual Language Models Think Better in English? [24.713751471567395]
翻訳テストは多言語言語モデルの性能を向上させるための一般的な手法である。
本研究では,外部翻訳システムの必要性を克服する自己翻訳という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T15:29:22Z) - Improving Language Model Integration for Neural Machine Translation [43.85486035238116]
暗黙的な言語モデルの説明は言語モデル融合の性能を大幅に向上させることを示す。
暗黙的な言語モデルの説明は言語モデル融合の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-06-08T10:00:19Z) - Language Model Tokenizers Introduce Unfairness Between Languages [98.92630681729518]
トークン化段階では,モデルが呼び出される直前に,異なる言語に対する扱いの相違が生じることを示す。
文字レベルとバイトレベルのモデルも、いくつかの言語ペアの符号化長の4倍以上の差を示している。
我々は、多言語で公平なサブワードトークン化器を用いて、将来の言語モデルを訓練するべきだと仮定する。
論文 参考訳(メタデータ) (2023-05-17T14:17:57Z) - Building Multilingual Machine Translation Systems That Serve Arbitrary
X-Y Translations [75.73028056136778]
任意のX-Y翻訳方向に対応するMNMTシステムを実際に構築する方法を示す。
また,本提案手法を,実用的な展開シナリオに対応するため,極めて大規模なデータ設定で検討した。
論文 参考訳(メタデータ) (2022-06-30T02:18:15Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Adaptive Sparse Transformer for Multilingual Translation [18.017674093519332]
多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
論文 参考訳(メタデータ) (2021-04-15T10:31:07Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。