論文の概要: MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2604.17435v1
- Date: Sun, 19 Apr 2026 13:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.525615
- Title: MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation
- Title(参考訳): MoVE:音声音声翻訳における音声認識エキスパートの混合による娘と涙の翻訳
- Authors: Szu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee,
- Abstract要約: MoVEはMixture-of-LoRA-Expertsアーキテクチャで、表現可能なアダプタと、ハイブリッド表現状態を取得する専門家をブレンドするソフトウェイトルータを備えている。
英語と中国語のS2STでは、強いベースラインと比較しながら、MoVEは76%の症例で標的のNVを再現し、人格の自然性と感情の忠実度が最も高い。
- 参考スコア(独自算出の注目度): 43.624829834421824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Speech-to-Speech Translation (S2ST) systems achieve strong semantic accuracy yet consistently strip away non-verbal vocalizations (NVs), such as laughter and crying that convey pragmatic intent, which severely limits real-world utility. We address this via three contributions. First, we propose a synthesis pipeline for building scalable expressive datasets to overcome the data scarcity limitation. Second, we propose MoVE, a Mixture-of-LoRA-Experts architecture with expressive-specialized adapters and a soft-weighting router that blends experts for capturing hybrid expressive states. Third, we show pretrained AudioLLMs enable striking data efficiency: 30 minutes of curated data is enough for strong performance. On English-Chinese S2ST, while comparing with strong baselines, MoVE reproduces target NVs in 76% of cases and achieves the highest human-rated naturalness and emotional fidelity among all compared systems, where existing S2ST systems preserve at most 14% of NVs.
- Abstract(参考訳): 近年の音声音声合成システム(S2ST)は,実世界の実用性を著しく制限する笑いや泣き声などの非言語発声(NV)の強い意味的精度を実現する。
これを3つのコントリビューションを通じて解決する。
まず,データ不足の限界を克服するために,スケーラブルな表現型データセットを構築するための合成パイプラインを提案する。
第2に,ハイブリッドな表現状態を取得するための専門家をブレンドするソフトウェイディングルータと,表現特化アダプタを備えたMixture-of-LoRA-ExpertsアーキテクチャであるMoVEを提案する。
第三に、事前訓練されたAudioLLMは、顕著なデータ効率を実現している。
英語と中国語のS2STでは、強いベースラインと比較しながら、MoVEはターゲットのNVを76%のケースで再現し、既存のS2STシステムがNVの少なくとも14%を保存している全ての比較システムの中で、人格の自然性と感情の忠実性を最高に達成している。
関連論文リスト
- Improving Direct Persian-English Speech-to-Speech Translation with Discrete Units and Synthetic Parallel Data [1.3607388598209322]
直接音声音声変換(S2ST)モデルは、ソース言語とターゲット言語で大量の並列音声データを必要とする。
本稿では、ペルシャ語を英語に翻訳する直接S2STシステムと、ペルシャ・英語合成音声生成のためのパイプラインを提案する。
論文 参考訳(メタデータ) (2025-11-16T17:14:23Z) - UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice [33.43869151508715]
表現型S2STのための新しい単一ステージフレームワークUniSSを紹介する。
提案手法は、注意深く設計された音声意味とスタイルモデリングを特徴とする。
我々は44.8k時間のデータからなる大規模で高品質な表現型S2STデータセットUniSTをリリースする。
論文 参考訳(メタデータ) (2025-09-25T13:30:46Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Selective Data Augmentation for Robust Speech Translation [17.56859840101276]
英ヒンディー語(en-hi)STのe2eアーキテクチャを提案する。
We use two imperfect machine translation (MT) services to translate Libri-trans en text into hi text。
この結果から, MTデータのブルート力増強に比べて, ST(BLEU) スコアが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-03-22T19:36:07Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。