論文の概要: Streaming Speech-to-Text Translation with a SpeechLLM
- arxiv url: http://arxiv.org/abs/2605.14766v1
- Date: Thu, 14 May 2026 12:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.81985
- Title: Streaming Speech-to-Text Translation with a SpeechLLM
- Title(参考訳): 音声LLMによる音声からテキストへの変換
- Authors: Titouan Parcollet, Shucong Zhang, Xianrui Zheng, Rogier C. van Dalen,
- Abstract要約: SpeechLLMは、音声におけるパラ言語情報を利用して、カスケードエラーを減らすことを約束する。
既存のSpeechLLMシステムは、翻訳を出力する前に音声の完全な発声を待つため、遅い。
本研究は,リアルタイム音声テキスト翻訳のためのLLMアーキテクチャを提案する。
異なる言語対の実験において、システムは非ストリーミングベースラインに近い翻訳品質を達成するが、レイテンシはわずか1-2秒である。
- 参考スコア(独自算出の注目度): 21.176799517305096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Normally, a system that translates speech into text consists of separate modules for speech recognition and text-to-text translation. Combining those tasks into a SpeechLLM promises to exploit paralinguistic information in the speech and to reduce cascaded errors. But existing SpeechLLM systems are slow since they do not work in a real streaming fashion: they wait for a complete utterance of audio before outputting a translation, or output tokens at fixed intervals, which is not suitable for real applications. This work proposes an LLM-based architecture for real streaming speech-to-text translation. The LLM learns not just to emit output tokens, but also to decide whether it has seen enough audio to do so. The system is trained using automatic alignments of the input speech and the output text. In experiments on different language pairs, the system achieves a translation quality close to the non-streaming baseline, but with a latency of only 1-2 seconds.
- Abstract(参考訳): 通常、音声をテキストに変換するシステムは、音声認識とテキストからテキストへの翻訳のための別個のモジュールから構成される。
これらのタスクをSpeechLLMに組み合わせることで、音声中のパラ言語情報を活用し、カスケードエラーを減らすことができる。
しかし、既存のSpeechLLMシステムは実際のストリーミング方式では動作しないため、翻訳を出力する前に音声の完全な発声を待つか、実際のアプリケーションには適さない一定間隔でトークンを出力する。
本研究は,リアルタイム音声テキスト翻訳のためのLLMアーキテクチャを提案する。
LLMは出力トークンを出力するだけでなく、十分なオーディオを見たかどうかを判断する。
システムは入力音声と出力テキストの自動アライメントを用いて訓練される。
異なる言語対の実験において、システムは非ストリーミングベースラインに近い翻訳品質を達成するが、レイテンシはわずか1-2秒である。
関連論文リスト
- Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs [41.088390995105826]
音声音声翻訳 (S2ST) は大規模言語モデル (LLM) で進歩している。
LLMはテキストのみのデータに基づいて訓練され、音声から音声への限られたデータで、それらに適応するための課題が提示される。
本研究では,本研究における音声教育の予定について述べる。
論文 参考訳(メタデータ) (2025-06-12T02:24:44Z) - SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。
推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。
実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文 参考訳(メタデータ) (2025-05-25T16:11:10Z) - SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。