論文の概要: Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2406.04541v1
- Date: Thu, 6 Jun 2024 22:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 17:47:54.363676
- Title: Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation
- Title(参考訳): E2E同時音声翻訳のためのラベル同期ニューラルトランスデューサ
- Authors: Keqi Deng, Philip C. Woodland,
- Abstract要約: 本稿では,同時音声翻訳のためのラベル同期型ニューラルトランスデューサLS-Transducer-SSTを提案する。
LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。
Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。
- 参考スコア(独自算出の注目度): 14.410024368174872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the neural transducer is popular for online speech recognition, simultaneous speech translation (SST) requires both streaming and re-ordering capabilities. This paper presents the LS-Transducer-SST, a label-synchronous neural transducer for SST, which naturally possesses these two properties. The LS-Transducer-SST dynamically decides when to emit translation tokens based on an Auto-regressive Integrate-and-Fire (AIF) mechanism. A latency-controllable AIF is also proposed, which can control the quality-latency trade-off either only during decoding, or it can be used in both decoding and training. The LS-Transducer-SST can naturally utilise monolingual text-only data via its prediction network which helps alleviate the key issue of data sparsity for E2E SST. During decoding, a chunk-based incremental joint decoding technique is designed to refine and expand the search space. Experiments on the Fisher-CallHome Spanish (Es-En) and MuST-C En-De data show that the LS-Transducer-SST gives a better quality-latency trade-off than existing popular methods. For example, the LS-Transducer-SST gives a 3.1/2.9 point BLEU increase (Es-En/En-De) relative to CAAT at a similar latency and a 1.4 s reduction in average lagging latency with similar BLEU scores relative to Wait-k.
- Abstract(参考訳): ニューラルトランスデューサはオンライン音声認識で人気があるが、同時音声変換(SST)にはストリーミングと再注文の両方の能力が必要である。
本稿では,SSTのラベル同期型ニューラルトランスデューサであるLS-Transducer-SSTについて述べる。
LS-Transducer-SSTはオートレグレッシブ・インテグレート・アンド・ファイア(AIF)機構に基づいて翻訳トークンをいつ発行するかを動的に決定する。
遅延制御可能なAIFも提案されており、復号時にのみ品質レイテンシトレードオフを制御するか、復号とトレーニングの両方で使用できる。
LS-Transducer-SSTは自然にモノリンガルのテキストのみのデータを予測ネットワークを通じて利用することができ、E2E SSTのデータの空間性の重要な問題を緩和するのに役立つ。
デコード中、チャンクベースのインクリメンタルジョイントデコード技術は、検索空間を洗練・拡張するために設計されている。
Fisher-CallHome Spanish (Es-En) と MuST-C En-De データによる実験は、LS-Transducer-SSTが既存の一般的な方法よりも高品質なレイテンシトレードオフを提供することを示している。
例えば、LS-Transducer-SSTは、同様のレイテンシでCAATと比較して3.1/2.9ポイントBLEU増加(Es-En/En-De)、Wait-kと比較して平均遅延遅延時間を1.4秒短縮する。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation [10.650573361117669]
半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。
最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
論文 参考訳(メタデータ) (2022-10-21T19:42:41Z) - Blockwise Streaming Transformer for Spoken Language Understanding and
Simultaneous Speech Translation [35.31787938396058]
本稿では,ブロックワイド・ストリーミング・トランスフォーマーを用いた音声言語理解 (SLU) と音声翻訳 (ST) の最初のステップについて述べる。
本稿では,ターゲット言語翻訳に最適化されたCTC分岐を用いた言語間符号化手法を提案する。
実験結果から,ブロックワイド・ストリーミング・トランスフォーマーは,オフラインモデルと比較して競合的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-19T14:38:40Z) - Large-Scale Streaming End-to-End Speech Translation with Neural
Transducers [35.2855796745394]
本稿では,音声信号を他の言語で直接テキストに変換するために,ストリームエンドツーエンド音声翻訳(ST)モデルを提案する。
ASRとテキストベースの機械翻訳(MT)を行うカスケードSTと比較して、提案した変換器トランスデューサ(TT)ベースのSTモデルは、推論遅延を大幅に削減する。
TTベースのSTを多言語STに拡張し、複数の言語のテキストを同時に生成する。
論文 参考訳(メタデータ) (2022-04-11T18:18:53Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Adaptive Feature Selection for End-to-End Speech Translation [87.07211937607102]
我々は、エンコーダデコーダに基づくE2E音声翻訳(ST)のための適応的特徴選択(AFS)を提案する。
まず、ASRエンコーダを事前訓練し、AFSを適用して各符号化音声特徴の重要性をSRに動的に推定する。
我々は、L0DROPをAFSのバックボーンとみなし、時間次元と特徴次元の両方に関して、音声特徴をスパース化するように適応する。
論文 参考訳(メタデータ) (2020-10-16T17:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。