論文の概要: UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
- arxiv url: http://arxiv.org/abs/2509.21144v1
- Date: Thu, 25 Sep 2025 13:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.936478
- Title: UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
- Title(参考訳): UniSS: 音声で音声を合成する統一表現型音声翻訳
- Authors: Sitong Cheng, Weizhen Bian, Xinsheng Wang, Ruibin Yuan, Jianyi Chen, Shunshun Yin, Yike Guo, Wei Xue,
- Abstract要約: 表現型S2STのための新しい単一ステージフレームワークUniSSを紹介する。
提案手法は、注意深く設計された音声意味とスタイルモデリングを特徴とする。
我々は44.8k時間のデータからなる大規模で高品質な表現型S2STデータセットUniSTをリリースする。
- 参考スコア(独自算出の注目度): 33.43869151508715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate goal of expressive speech-to-speech translation (S2ST) is to accurately translate spoken content while preserving the speaker identity and emotional style. However, progress in this field is largely hindered by three key challenges: the scarcity of paired speech data that retains expressive styles, the complexity of multi-stage processing pipelines, and the limited transfer of translation capabilities from large language models (LLMs). In this work, we address these challenges by introducing UniSS, a novel single-stage framework for expressive S2ST. Our approach features carefully designed speech semantic and style modeling, enabling seamless integration with existing text-based LLM frameworks to develop a unified text-speech language model. To transfer translation capabilities from text to speech, we propose a cross-modal chain-of-thought prompting process that progressively aligns audio semantics with text and ensures style preservation in the decoded results. Furthermore, we construct and release a large-scale, high-quality expressive S2ST dataset, UniST, comprising 44.8k hours of data. Experimental results show that UniSS significantly outperforms previous methods in translation fidelity and speech quality while preserving voice, emotion, and duration consistency. Our work establishes a simpler and more effective paradigm for building the next generation of expressive S2ST systems. Audio samples are available at https://cmots.github.io/uniss-demo.
- Abstract(参考訳): 表現型音声音声翻訳(S2ST)の最終的な目標は、話者のアイデンティティと感情的スタイルを保ちながら、音声コンテンツを正確に翻訳することである。
しかし、この分野での進歩は、表現的なスタイルを保持するペア音声データの不足、多段階処理パイプラインの複雑さ、大規模言語モデル(LLM)からの翻訳能力の制限という3つの大きな課題によって大きく妨げられている。
本稿では,S2ST表現のための新しい単一ステージフレームワークUniSSを導入することで,これらの課題に対処する。
提案手法は,音声のセマンティクスとスタイルモデリングを慎重に設計し,既存のテキストベースのLLMフレームワークとシームレスに統合し,統一されたテキスト音声言語モデルを構築する。
そこで本研究では,テキストから音声への翻訳能力を変換するために,音声意味論を段階的にテキストに整合させ,復号された結果のスタイル保存を確実にするクロスモーダル・チェーン・オブ・シークレット・プロンプトプロセスを提案する。
さらに、44.8k時間のデータからなる大規模かつ高品質な表現型S2STデータセットUniSTを構築し、リリースする。
実験結果から、UniSSは、音声、感情、持続性を維持しながら、翻訳の忠実度や音声品質において、従来の方法よりも有意に優れていたことが示唆された。
我々の研究は、次世代の表現型S2STシステムを構築するための、よりシンプルで効果的なパラダイムを確立します。
オーディオサンプルはhttps://cmots.github.io/uniss-demo.comで入手できる。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。
我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。
モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文 参考訳(メタデータ) (2024-05-30T18:28:31Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - A Holistic Cascade System, benchmark, and Human Evaluation Protocol for
Expressive Speech-to-Speech Translation [45.47457657122893]
表現型音声音声合成(S2ST)は,翻訳精度を維持しつつ,音源音声の韻律的属性を対象音声に伝達することを目的としている。
既存のS2STの研究は限定的であり、通常は一度に1つの表現性に焦点をあてる。
そこで本稿では,S2ST表現のための包括的カスケードシステムを提案する。
論文 参考訳(メタデータ) (2023-01-25T14:27:00Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。