論文の概要: Impact of Encoding and Segmentation Strategies on End-to-End
Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2104.14470v1
- Date: Thu, 29 Apr 2021 16:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:51:25.001360
- Title: Impact of Encoding and Segmentation Strategies on End-to-End
Simultaneous Speech Translation
- Title(参考訳): エンコーディングとセグメンテーションがエンドツーエンド同時音声翻訳に及ぼす影響
- Authors: Ha Nguyen, Yannick Est\`eve, Laurent Besacier
- Abstract要約: 本稿では, 終末同時音声翻訳の2つの重要な側面として, 連続した音声の流れを効率よく符号化する方法と, 音声の流れをセグメント化する方法について検討する。
提案したエンド・ツー・エンドのオンラインデコーディング戦略を拡張し,MLSTMエンコーディングによるBLSTMの置き換えはオフラインモードで性能を劣化させるが,オンラインモードでの効率と性能を実際に向上させることを示す。
- 参考スコア(独自算出の注目度): 17.78024523121448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Boosted by the simultaneous translation shared task at IWSLT 2020, promising
end-to-end online speech translation approaches were recently proposed. They
consist in incrementally encoding a speech input (in a source language) and
decoding the corresponding text (in a target language) with the best possible
trade-off between latency and translation quality. This paper investigates two
key aspects of end-to-end simultaneous speech translation: (a) how to encode
efficiently the continuous speech flow, and (b) how to segment the speech flow
in order to alternate optimally between reading (R: encoding input) and writing
(W: decoding output) operations. We extend our previously proposed end-to-end
online decoding strategy and show that while replacing BLSTM by ULSTM encoding
degrades performance in offline mode, it actually improves both efficiency and
performance in online mode. We also measure the impact of different methods to
segment the speech signal (using fixed interval boundaries, oracle word
boundaries or randomly set boundaries) and show that our best end-to-end online
decoding strategy is surprisingly the one that alternates R/W operations on
fixed size blocks on our English-German speech translation setup.
- Abstract(参考訳): iwslt 2020の同時翻訳共有タスクにより、最近、エンドツーエンドのオンライン音声翻訳アプローチが提案された。
これらは、音声入力(ソース言語)をインクリメンタルに符号化し、対応するテキスト(ターゲット言語)を、レイテンシと翻訳品質の最良のトレードオフでデコードする。
本稿では, 連続音声フローを効率的に符号化する方法と, (b) 読み出し (r: 符号化入力) と書き出し (w: 復号出力) を交互に交互に行うために, 音声フローを分割する方法という, エンドツーエンド同時音声翻訳の2つの重要な側面について検討する。
提案したエンド・ツー・エンドのオンラインデコーディング戦略を拡張し,MLSTMエンコーディングによるBLSTMの置き換えはオフラインモードで性能を劣化させるが,オンラインモードでの効率と性能を実際に向上させることを示す。
また,音声信号の分割(固定区間境界,oracle wordバウンダリ,ランダム設定バウンダリ)に対するさまざまな方法の影響を計測し,英語とドイツ語の音声翻訳設定において,固定サイズブロック上でr/w操作を交互に行うという,私たちの最善のオンラインデコード戦略が驚くべきものであることを示す。
関連論文リスト
- A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - An Empirical Study of End-to-end Simultaneous Speech Translation
Decoding Strategies [17.78024523121448]
本稿では,エンドツーエンドの同時音声翻訳のためのデコード戦略を提案する。
オフラインモードで訓練されたエンドツーエンドモデルを活用し、2つの言語ペアの実証的研究を行う。
論文 参考訳(メタデータ) (2021-03-04T18:55:40Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。