論文の概要: StressTransfer: Stress-Aware Speech-to-Speech Translation with Emphasis Preservation
- arxiv url: http://arxiv.org/abs/2510.13194v1
- Date: Wed, 15 Oct 2025 06:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.524574
- Title: StressTransfer: Stress-Aware Speech-to-Speech Translation with Emphasis Preservation
- Title(参考訳): StressTransfer:強調保存を用いたストレス対応音声音声翻訳
- Authors: Xi Chen, Yuchen Song, Satoshi Nakamura,
- Abstract要約: 単語レベルの強調を保存したストレス対応音声音声合成システム(S2ST)を提案する。
制御可能なTSモデルを誘導するターゲット言語タグへのソース言語ストレスについて検討した。
- 参考スコア(独自算出の注目度): 10.037278049189073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a stress-aware speech-to-speech translation (S2ST) system that preserves word-level emphasis by leveraging LLMs for cross-lingual emphasis conversion. Our method translates source-language stress into target-language tags that guide a controllable TTS model. To overcome data scarcity, we developed a pipeline to automatically generate aligned training data and introduce the "LLM-as-Judge" for evaluation. Experiments show our approach substantially outperforms baselines in preserving emphasis while maintaining comparable translation quality, speaker intent, and naturalness. Our work highlights the importance of prosody in translation and provides an effective, data-efficient solution for preserving paralinguistic cues in S2ST.
- Abstract(参考訳): 本稿では,LLMを言語間強調変換に活用することにより,単語レベルの強調を抑えるストレス対応音声音声合成システム(S2ST)を提案する。
提案手法は,ソース言語ストレスを,制御可能なTSモデルを誘導するターゲット言語タグに変換する。
データ不足を克服するため,アライメントされたトレーニングデータを自動的に生成するパイプラインを開発し,評価のための"LLM-as-Judge"を導入した。
実験により,本手法は,翻訳品質,話者意図,自然性の両立を維持しつつ,強調を保ちながら,ベースラインを大幅に上回っていることが示された。
本研究は、翻訳における韻律の重要性を強調し、S2STにおけるパラ言語的手がかりを保存するための効果的な、データ効率の高いソリューションを提供する。
関連論文リスト
- Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation [0.0]
インドの教育分野における言語多様性は、インクリシティを阻害する重要な課題となっている。
オンライン教育コンテンツによる知識の民主化にもかかわらず、英語の優位はアクセシビリティを制限している。
既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらす。
本稿では、インド英語のストレスアノテーションを用いたデータセットと、合成音声にストレスを組み込むことのできるテクスチャ・トゥ・スペーチ(TTS)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-07T03:21:19Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Self-Supervised Representations Improve End-to-End Speech Translation [57.641761472372814]
自己教師付き事前学習機能により,翻訳性能が一貫的に向上することを示す。
言語間の変換は、チューニングの必要なく、あるいはほとんどチューニングすることなく、さまざまな言語に拡張することができる。
論文 参考訳(メタデータ) (2020-06-22T10:28:38Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。