論文の概要: Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice
- arxiv url: http://arxiv.org/abs/2507.17527v3
- Date: Sun, 27 Jul 2025 05:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 12:09:50.618406
- Title: Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice
- Title(参考訳): Seed LiveInterpret 2.0: 音声によるエンドツーエンドの音声合成
- Authors: Shanbo Cheng, Yu Bao, Zhichao Huang, Yu Lu, Ningxin Peng, Lu Xu, Runsheng Yu, Rong Cao, Yujiao Du, Ting Han, Yuxiang Hu, Zeyang Li, Sitong Liu, Shengtao Ma, Shiguang Pan, Jiongchen Xiao, Nuo Xu, Meng Yang, Rong Ye, Yiming Yu, Jun Zhang, Ruofei Zhang, Wanyi Zhang, Wenhao Zhu, Liehao Zou, Lu Lu, Yuxuan Wang, Yonghui Wu,
- Abstract要約: 同時解釈 (SI) は、翻訳業界における最強のフロンティアの1つである。
Seed-LiveInterpret 2.0は、音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現するエンドツーエンドのSIモデルである。
- 参考スコア(独自算出の注目度): 52.747242157396315
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simultaneous Interpretation (SI) represents one of the most daunting frontiers in the translation industry, with product-level automatic systems long plagued by intractable challenges: subpar transcription and translation quality, lack of real-time speech generation, multi-speaker confusion, and translated speech inflation, especially in long-form discourses. In this study, we introduce Seed-LiveInterpret 2.0, an end-to-end SI model that delivers high-fidelity, ultra-low-latency speech-to-speech generation with voice cloning capabilities. As a fully operational product-level solution, Seed-LiveInterpret 2.0 tackles these challenges head-on through our novel duplex speech-to-speech understanding-generating framework. Experimental results demonstrate that through large-scale pretraining and reinforcement learning, the model achieves a significantly better balance between translation accuracy and latency, validated by human interpreters to exceed 70% correctness in complex scenarios. Notably, Seed-LiveInterpret 2.0 outperforms commercial SI solutions by significant margins in translation quality, while slashing the average latency of cloned speech from nearly 10 seconds to a near-real-time 3 seconds, which is around a near 70% reduction that drastically enhances practical usability.
- Abstract(参考訳): 同時解釈 (SI) は翻訳業界において最も厄介なフロンティアの1つであり、製品レベルの自動システムは、翻訳と翻訳の質の不足、リアルタイム音声生成の欠如、複数話者の混乱、特に長文の言論において、難題に悩まされてきた。
本研究では,音声のクローン機能を備えた高忠実で低レイテンシな音声音声合成を実現する,エンドツーエンドのSIモデルであるSeed-LiveInterpret 2.0を紹介する。
Seed-LiveInterpret 2.0は、完全に運用された製品レベルのソリューションです。
実験により, 大規模事前学習と強化学習により, 複雑なシナリオにおいて, 翻訳精度と待ち時間とのバランスが, 70%以上の精度で向上することが確認された。
特に、Seed-LiveInterpret 2.0は、翻訳品質のかなりのマージンで商用SIソリューションを上回り、クローン音声の平均遅延を10秒近くからほぼリアルタイム3秒に短縮し、実用的なユーザビリティを大幅に向上させる約70%の削減を実現している。
関連論文リスト
- Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.134076873312809]
言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。
本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。
次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文 参考訳(メタデータ) (2025-05-27T08:43:28Z) - Direct Speech to Speech Translation: A Review [0.0]
音声音声翻訳(S2ST)は,グローバル通信ギャップを埋める変換技術である。
自動音声認識(ASR)、機械翻訳(MT)、テキスト・トゥ・スピーチ(TTS)コンポーネントに依存する従来のカスケードモデルは、エラーの伝搬、遅延の増加、韻律の喪失に悩まされている。
直接S2STモデルは話者識別を保持し、レイテンシを低減し、発声特性と韻律を保存することにより翻訳自然性を改善する。
論文 参考訳(メタデータ) (2025-03-03T06:48:22Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。