論文の概要: Overcoming Latency Bottlenecks in On-Device Speech Translation: A Cascaded Approach with Alignment-Based Streaming MT
- arxiv url: http://arxiv.org/abs/2508.13358v1
- Date: Mon, 18 Aug 2025 21:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.723217
- Title: Overcoming Latency Bottlenecks in On-Device Speech Translation: A Cascaded Approach with Alignment-Based Streaming MT
- Title(参考訳): オンデバイス音声翻訳におけるレイテンシの限界 -アライメントベースストリーミングMTを用いたケーススタディ-
- Authors: Zeeshan Ahmed, Frank Seide, Niko Moritz, Ju Lin, Ruiming Xie, Simone Merello, Zhe Liu, Christian Fuegen,
- Abstract要約: 本稿では,ASR(Automatic Speech Recognition)とMT(Machine Translation)をリアルタイム・オンデバイス・ストリーミング音声翻訳に利用する際の課題について述べる。
本稿では,翻訳品質とレイテンシを効果的にバランスさせる同時翻訳手法を提案する。
我々は,デバイス上でのバイリンガル音声翻訳にアプローチを適用し,レイテンシと品質の点で,我々の技術がベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 19.133273093370896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper tackles several challenges that arise when integrating Automatic Speech Recognition (ASR) and Machine Translation (MT) for real-time, on-device streaming speech translation. Although state-of-the-art ASR systems based on Recurrent Neural Network Transducers (RNN-T) can perform real-time transcription, achieving streaming translation in real-time remains a significant challenge. To address this issue, we propose a simultaneous translation approach that effectively balances translation quality and latency. We also investigate efficient integration of ASR and MT, leveraging linguistic cues generated by the ASR system to manage context and utilizing efficient beam-search pruning techniques such as time-out and forced finalization to maintain system's real-time factor. We apply our approach to an on-device bilingual conversational speech translation and demonstrate that our techniques outperform baselines in terms of latency and quality. Notably, our technique narrows the quality gap with non-streaming translation systems, paving the way for more accurate and efficient real-time speech translation.
- Abstract(参考訳): 本稿では,リアルタイム・オンデバイス・ストリーミング音声翻訳において,自動音声認識(ASR)と機械翻訳(MT)を統合する際に生じるいくつかの課題に対処する。
Recurrent Neural Network Transducers (RNN-T) に基づく最先端のASRシステムはリアルタイムに書き起こしを行うことができるが、リアルタイムにストリーミング翻訳を実現することは大きな課題である。
この問題に対処するために,翻訳品質とレイテンシを効果的にバランスさせる同時翻訳手法を提案する。
また,ASR と MT の効率的な統合,ASR システムによって生成された言語的手がかりを利用した文脈管理,タイムアウトや強制ファイナライゼーションといった効率的なビーム探索プルーニング技術を活用し,システムのリアルタイムファクターを維持する。
我々は,デバイス上でのバイリンガル音声翻訳にアプローチを適用し,レイテンシと品質の点で,我々の技術がベースラインより優れていることを示す。
特に,本手法は,非ストリーミング翻訳システムと品質ギャップを狭め,より正確かつ効率的なリアルタイム音声翻訳を実現する。
関連論文リスト
- REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation [3.230443390004258]
同時音声翻訳(SimulST)システムは、翻訳されたテキストや音声を同時に出力しながら音声でストリームする。
私たちは、このトレードオフを最適化するための戦略を導入します。
正規化エントロピー情報適応(Regularized Entropy Information Adaptation, REINA)を提案する。
論文 参考訳(メタデータ) (2025-08-07T00:25:58Z) - HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization [0.19791587637442667]
逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を十分に整形されたテキストに変換するために重要である。
我々はITNのためのストリーミング事前学習言語モデルを導入し、頑健性を向上させるために事前学習言語表現を活用する。
提案手法は,非ストリーミングITNに匹敵する精度を達成し,ベトナムのデータセット上で既存のストリーミングITNモデルを上回る精度を実現する。
論文 参考訳(メタデータ) (2025-05-30T05:41:03Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。