論文の概要: StreamUni: Achieving Streaming Speech Translation with a Unified Large Speech-Language Model
- arxiv url: http://arxiv.org/abs/2507.07803v1
- Date: Thu, 10 Jul 2025 14:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.443186
- Title: StreamUni: Achieving Streaming Speech Translation with a Unified Large Speech-Language Model
- Title(参考訳): StreamUni: 大規模音声言語モデルによるストリーム音声翻訳の実現
- Authors: Shoutao Guo, Xiang Li, Shaolei Zhang, Mengge Liu, Wei Chen, Yang Feng,
- Abstract要約: ストリーム音声翻訳(StreamST)は、ポリシーとして知られる適切なタイミングで翻訳を生成する必要がある。
既存のStreamSTメソッドは通常、同時音声翻訳(SimulST)と呼ばれる文レベルの音声セグメントで動作する。
本稿では,Large Speech-Language Model (LSLM) を用いてStreamSTを実現するStreamUniを提案する。
- 参考スコア(独自算出の注目度): 32.79971648426805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming speech translation (StreamST) requires determining appropriate timing, known as policy, to generate translations while continuously receiving source speech inputs, balancing low latency with high translation quality. However, existing StreamST methods typically operate on sentence-level speech segments, referred to as simultaneous speech translation (SimulST). In practice, they require collaboration with segmentation models to accomplish StreamST, where the truncated speech segments constrain SimulST models to make policy decisions and generate translations based on limited contextual information. Moreover, SimulST models struggle to learn effective policies due to the complexity of speech inputs and cross-lingual generation. To address these challenges, we propose StreamUni, which achieves StreamST through a unified Large Speech-Language Model (LSLM). Specifically, StreamUni incorporates speech Chain-of-Thought (CoT) in guiding the LSLM to generate multi-stage outputs. Leveraging these multi-stage outputs, StreamUni simultaneously accomplishes speech segmentation, policy decision, and translation generation, completing StreamST without requiring massive policy-specific training. Additionally, we propose a streaming CoT training method that enhances low-latency policy decisions and generation capabilities using limited CoT data. Experiments demonstrate that our approach achieves state-of-the-art performance on StreamST tasks.
- Abstract(参考訳): ストリーム音声翻訳(StreamST)は、ソース音声入力を継続的に受信しながら、低レイテンシと高い翻訳品質のバランスを保ちながら翻訳を生成するために、ポリシーとして知られる適切なタイミングを決定する必要がある。
しかし、既存のStreamSTメソッドは通常、同時音声翻訳(SimulST)と呼ばれる文レベルの音声セグメントで動作する。
実際には、StreamSTを達成するにはセグメンテーションモデルとのコラボレーションが必要である。そこでは、切り離された音声セグメントが、ポリシー決定を行うためにSimulSTモデルを制約し、限られた文脈情報に基づいて翻訳を生成する。
さらに、SimulSTモデルは、音声入力の複雑さと言語間生成の複雑さのため、効果的なポリシーを学ぶのに苦労する。
これらの課題に対処するため,Large Speech-Language Model (LSLM) を用いてStreamSTを実現するStreamUniを提案する。
具体的には、StreamUniは、LSLMを誘導してマルチステージ出力を生成するために、音声Chain-of-Thought (CoT)を組み込んでいる。
マルチステージ出力を活用することで、StreamUniは音声セグメンテーション、ポリシー決定、翻訳生成を同時に達成し、大規模なポリシー固有のトレーニングを必要とせずにStreamSTを完了します。
さらに,限られたCoTデータを用いた低レイテンシポリシー決定と生成機能を向上させるストリーミングCoTトレーニング手法を提案する。
実験により,本手法がStreamSTタスクの最先端性能を実現することを示す。
関連論文リスト
- SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。
SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文 参考訳(メタデータ) (2025-04-22T01:05:32Z) - Efficient and Adaptive Simultaneous Speech Translation with Fully Unidirectional Architecture [14.056534007451763]
同時音声翻訳(SimulST)は、部分的な音声入力を処理しながら段階的に翻訳を生成する。
既存のLLMベースのSimulSTアプローチは、双方向音声エンコーダの繰り返し符号化による計算オーバーヘッドが大きい。
完全一方向アーキテクチャを用いた効率・適応同時音声翻訳(EASiST)を提案する。
論文 参考訳(メタデータ) (2025-04-16T06:46:15Z) - StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning [48.84039953531356]
StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。
CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-05T08:24:22Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Adapting Offline Speech Translation Models for Streaming with
Future-Aware Distillation and Inference [34.50987690518264]
ストリーミング音声翻訳の一般的なアプローチは、異なるレイテンシ要求をサポートするために、wait-kポリシを備えた単一のオフラインモデルを使用することである。
完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチ問題が発生する。
本稿では,ストリーミング入力にオフラインSTモデルを適用するFuture-Aware Streaming Translation (FAST) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T13:56:36Z) - UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation [12.63410397982031]
我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2021-09-15T15:22:10Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。