Fugu-MT 論文翻訳(概要): StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning

論文の概要: StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning

arxiv url: http://arxiv.org/abs/2406.03049v1
Date: Wed, 5 Jun 2024 08:24:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:19:28.734597
Title: StreamSpeech: Simultaneous Speech-to-Speech Translation with Multi-task Learning
Title（参考訳）: StreamSpeech: マルチタスク学習による同時音声音声合成
Authors: Shaolei Zhang, Qingkai Fang, Shoutao Guo, Zhengrui Ma, Min Zhang, Yang Feng,
Abstract要約: StreamSpeechは、翻訳と同時ポリシーを共同で学習するSimul-S2STモデルである。 CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 48.84039953531356
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Simultaneous speech-to-speech translation (Simul-S2ST, a.k.a streaming speech translation) outputs target speech while receiving streaming speech inputs, which is critical for real-time communication. Beyond accomplishing translation between speech, Simul-S2ST requires a policy to control the model to generate corresponding target speech at the opportune moment within speech inputs, thereby posing a double challenge of translation and policy. In this paper, we propose StreamSpeech, a direct Simul-S2ST model that jointly learns translation and simultaneous policy in a unified framework of multi-task learning. Adhering to a multi-task learning approach, StreamSpeech can perform offline and simultaneous speech recognition, speech translation and speech synthesis via an "All-in-One" seamless model. Experiments on CVSS benchmark demonstrate that StreamSpeech achieves state-of-the-art performance in both offline S2ST and Simul-S2ST tasks. Besides, StreamSpeech is able to present high-quality intermediate results (i.e., ASR or translation results) during simultaneous translation process, offering a more comprehensive real-time communication experience.
Abstract（参考訳）: 同時音声音声変換(Simul-S2ST、ストリーミング音声翻訳)は、リアルタイム通信において重要なストリーミング音声入力を受信しながらターゲット音声を出力する。 Simul-S2STは、音声間の翻訳の達成以外にも、音声入力の機会に対応するターゲット音声を生成するためのモデルを制御するためのポリシーが必要であり、それによって翻訳とポリシーの二重課題が引き起こされる。本稿では,マルチタスク学習の統一フレームワークであるStreamSpeechを提案する。マルチタスク学習アプローチを採用することで、StreamSpeechは"All-in-One"シームレスモデルを通じて、オフラインおよび同時音声認識、音声翻訳、音声合成を行うことができる。 CVSSベンチマークの実験では、StreamSpeechはオフラインS2STタスクとSimul-S2STタスクの両方で最先端のパフォーマンスを実現している。さらに、StreamSpeechは、同時翻訳プロセス中に高品質な中間結果(ASRまたは翻訳結果)を提示することができ、より包括的なリアルタイム通信エクスペリエンスを提供する。

関連論文リスト

SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。 SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文参考訳（メタデータ） (2025-04-22T01:05:32Z)
S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information [47.950757976473035]
パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。 GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
論文参考訳（メタデータ） (2025-03-07T02:07:00Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation [45.558316325252335]
マルチタスク音声言語モデル(Multitask Speech Language Model、MSLM)は、マルチタスク設定で訓練されたデコーダのみの音声言語モデルである。我々のモデルは、話者スタイルを保存した多言語S2STをサポートすることができる。
論文参考訳（メタデータ） (2024-03-19T03:35:20Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文参考訳（メタデータ） (2022-10-31T02:55:51Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。