論文の概要: Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments
- arxiv url: http://arxiv.org/abs/2307.03354v1
- Date: Fri, 7 Jul 2023 02:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:38:22.919475
- Title: Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments
- Title(参考訳): テキストアライメントを活用した共同ストリーミングASRとSTのためのトークンレベルシリアライズ出力トレーニング
- Authors: Sara Papi, Peidong Wan, Junkun Chen, Jian Xue, Jinyu Li, Yashesh Gaur
- Abstract要約: 本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
- 参考スコア(独自算出の注目度): 27.856543173186147
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In real-world applications, users often require both translations and
transcriptions of speech to enhance their comprehension, particularly in
streaming scenarios where incremental generation is necessary. This paper
introduces a streaming Transformer-Transducer that jointly generates automatic
speech recognition (ASR) and speech translation (ST) outputs using a single
decoder. To produce ASR and ST content effectively with minimal latency, we
propose a joint token-level serialized output training method that interleaves
source and target words by leveraging an off-the-shelf textual aligner.
Experiments in monolingual (it-en) and multilingual (\{de,es,it\}-en) settings
demonstrate that our approach achieves the best quality-latency balance. With
an average ASR latency of 1s and ST latency of 1.3s, our model shows no
degradation or even improves output quality compared to separate ASR and ST
models, yielding an average improvement of 1.1 WER and 0.4 BLEU in the
multilingual case.
- Abstract(参考訳): 現実世界のアプリケーションでは、特にインクリメンタルな生成が必要なストリーミングシナリオにおいて、ユーザーは理解を深めるために、翻訳と音声の書き起こしの両方を必要とすることが多い。
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
最小レイテンシでASRとSTのコンテンツを効果的に生成するために,オフザシェルフテキストアライメント装置を活用して,ソースとターゲット語をインターリーブする共同トークンレベルのシリアライズ出力トレーニング手法を提案する。
単言語 (it-en) と多言語 (\{de,es,it\}-en) における実験は、我々のアプローチが最高の品質・相対性バランスを達成することを示している。
平均ASRレイテンシは1s,STレイテンシは1.3sであり,ASRモデルとSTモデルを比較した結果,出力品質は低下せず,多言語では平均1.1WERと0.4BLEUが向上した。
関連論文リスト
- FASST: Fast LLM-based Simultaneous Speech Translation [9.65638081954595]
同時音声翻訳(SST)は、ストリーミング音声入力を受信し、オンザフライでテキスト翻訳を生成する。
本研究では,高速な大規模言語モデルに基づく音声翻訳手法であるFASSTを提案する。
実験結果から,FASSTは最高の品質・レイテンシトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-08-18T10:12:39Z) - DiffNorm: Self-Supervised Normalization for Non-autoregressive Speech-to-speech Translation [29.76274107159478]
非自己回帰変換器(NAT)は音声から音声への直接変換システムに適用される。
拡散に基づく正規化戦略であるDiffNormを導入し、NATモデルをトレーニングするためのデータ分散を簡単にする。
CVSSベンチマークでは,英語・スペイン語(En-Es)では+7ASR-BLEU,英語・フランス語(En-Fr)では+2ASR-BLEUが顕著に改善した。
論文 参考訳(メタデータ) (2024-05-22T01:10:39Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Direct Simultaneous Speech-to-Text Translation Assisted by Synchronized
Streaming ASR [21.622039537743607]
音声からテキストへの同時翻訳は多くのシナリオで広く有用である。
最近の試みでは、ソース音声を同時にターゲットテキストに翻訳しようとする試みがあるが、これは2つの別々のタスクが組み合わさったため、はるかに難しい。
ケースドとエンド・ツー・エンドの両方のアプローチの利点を活かした新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2021-06-11T23:22:37Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。