論文の概要: CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation
- arxiv url: http://arxiv.org/abs/2410.05146v1
- Date: Mon, 7 Oct 2024 15:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:58:57.695459
- Title: CTC-GMM: CTC guided modality matching for fast and accurate streaming speech translation
- Title(参考訳): CTC-GMM: 高速かつ高精度なストリーミング音声翻訳のためのCTCガイド付きモダリティマッチング
- Authors: Rui Zhao, Jinyu Li, Ruchao Fan, Matt Post,
- Abstract要約: CTC-GMM (Connectionist Temporal Classification Guided modality matching) という手法を導入する。
この手法は、CTCを用いて、対応するテキストシーケンスと一致するコンパクトな埋め込みシーケンスに音声シーケンスを圧縮する。
FLEURS と CoVoST2 を用いて評価した結果,CTC-GMM による翻訳精度は,それぞれ 13.9% と 6.4% 向上した。
- 参考スコア(独自算出の注目度): 36.417792361080615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models for streaming speech translation (ST) can achieve high accuracy and low latency if they're developed with vast amounts of paired audio in the source language and written text in the target language. Yet, these text labels for the target language are often pseudo labels due to the prohibitive cost of manual ST data labeling. In this paper, we introduce a methodology named Connectionist Temporal Classification guided modality matching (CTC-GMM) that enhances the streaming ST model by leveraging extensive machine translation (MT) text data. This technique employs CTC to compress the speech sequence into a compact embedding sequence that matches the corresponding text sequence, allowing us to utilize matched {source-target} language text pairs from the MT corpora to refine the streaming ST model further. Our evaluations with FLEURS and CoVoST2 show that the CTC-GMM approach can increase translation accuracy relatively by 13.9% and 6.4% respectively, while also boosting decoding speed by 59.7% on GPU.
- Abstract(参考訳): ストリーム音声翻訳(ST)モデルは、ソース言語で大量のペア音声とターゲット言語で書かれたテキストで開発された場合、高い精度と低レイテンシを実現することができる。
しかし、これらのテキストラベルは、手動STデータラベルの禁止コストのため、しばしば擬似ラベルである。
本稿では,広範囲な機械翻訳(MT)テキストデータを活用することで,ストリーミングSTモデルを改善するCTC-GMM (Connectionist Temporal Classification Guided modality matching) という手法を提案する。
この手法はCTCを用いて、対応するテキストシーケンスにマッチするコンパクトな埋め込みシーケンスに音声シーケンスを圧縮し、MTコーパスからマッチした {source-target} 言語テキストペアを使用してストリーミングSTモデルを更に洗練する。
FLEURS と CoVoST2 を用いて評価した結果,CTC-GMM による変換精度は,それぞれ 13.9% と 6.4% 向上し,デコード速度は 59.7% 向上した。
関連論文リスト
- CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Efficient CTC Regularization via Coarse Labels for End-to-End Speech
Translation [48.203394370942505]
我々は、正規化のためのコネクショニスト時間分類(CTC)のための真の語彙ラベルの必要性を再検討する。
CTCの粗いラベリングを提案する。このラベリングは、単語ラベルをtruncation, division or modulo (MOD) 操作などの単純な規則でマージする。
この結果から,CoLaCTCは文字起こしやラベリングの翻訳に係わらず,CTC正則化に成功していることが明らかとなった。
論文 参考訳(メタデータ) (2023-02-21T18:38:41Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。