論文の概要: From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2605.16026v1
- Date: Fri, 15 May 2026 15:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.32939
- Title: From Flat Language Labels to Typological Priors: Structured Language Conditioning for Multilingual Speech-to-Speech Translation
- Title(参考訳): フラット言語ラベルからタイポロジー優先へ:多言語音声音声合成のための構造化言語条件付け
- Authors: Yu Pan, Yang Hou, Xiongfei Wu, Liang Zhang, Yves Le Traon, Lei Ma, Jianjun Zhao,
- Abstract要約: 音声から音声への翻訳システムは、ソース言語情報を無視したり、言語・アズ・レーベルのパラダイムでエンコードすることが多い。
S2ST-Omni 2は,平易な言語ラベルから定型型的先行詞への多言語条件付けを再構成する多言語合成S2STフレームワークである。
- 参考スコア(独自算出の注目度): 18.4879882820322
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Compositional speech-to-speech translation (S2ST) systems built upon speech large language models (SpeechLLMs) have recently shown promising performance. However, existing S2ST systems often either neglect source-language information or encode it through a language-as-label paradigm, representing each source language as an independent flat embedding. Such a design overlooks systematic linguistic structure shared across languages, which may limit data-efficient multilingual adaptation when supervised S2ST data are scarce. To address this issue, we propose S2ST-Omni 2, a many-to-one compositional S2ST framework that systematically reformulates multilingual language conditioning from flat language labels to structured typological priors. Specifically, S2ST-Omni 2 revisits language conditioning at three levels: typology-informed hierarchical language encoding for structured source-language representation, dynamically-gated language-aware Dual-CTC for content-adaptive acoustic modulation, and typology-aware LLM prompting for decoder-side linguistic guidance. Experiments on CVSS-C show that S2ST-Omni 2 achieves superior average performance among representative S2ST approaches across BLEU, COMET, ASR-BLEU, and BLASER 2.0 under the adopted evaluation protocol. Ablation studies indicate that the proposed representation-level, acoustic-level, and decoding-level strategies provide complementary benefits. Moreover, controlled data-budget analyses and a Japanese-to-English evaluation using only approximately 3 hours of supervised training data suggest that explicit typological priors provide useful inductive biases for data-efficient multilingual S2ST.
- Abstract(参考訳): 音声大言語モデル(SpeechLLMs)に基づく合成音声音声合成システム(S2ST)は,最近,有望な性能を示した。
しかし、既存のS2STシステムは、しばしばソースコード情報を無視するか、言語・アズ・ラベルのパラダイムでエンコードし、それぞれのソース言語を独立したフラット埋め込みとして表現する。
このような設計は、言語間で共有される体系的な言語構造を見落とし、教師付きS2STデータが不足している場合に、データ効率のよい多言語適応を制限する可能性がある。
この問題に対処するため,フラット言語ラベルから定型型的先行詞への多言語条件付けを体系的に再構築する多言語合成S2STフレームワークであるS2ST-Omni 2を提案する。
具体的には、S2ST-Omni 2では、構造的ソース言語表現のためのインフォメーション付き階層型言語符号化、コンテンツ適応型音響変調のための動的ゲート型言語対応Dual-CTC、デコーダ側言語指導のためのインフォメーション対応LLMの3段階の言語条件付けを再検討している。
CVSS-C実験により,S2ST-Omni 2 はBLEU,COMET,ASR-BLEU,BLASER 2.0 にまたがる代表的 S2ST アプローチにおいて,適用された評価プロトコルの下で優れた平均性能が得られることが示された。
アブレーション研究は、提案された表現レベル、音響レベル、復号レベル戦略が相補的な利点をもたらすことを示している。
さらに,約3時間程度の教師付きトレーニングデータを用いたデータ予算分析と日英評価により,データ効率のよい多言語S2STに対して,明示的な型的先行が有用な帰納バイアスをもたらすことが示唆された。
関連論文リスト
- Towards Fine-Grained Code-Switch Speech Translation with Semantic Space Alignment [47.209852464226856]
コードスイッチング(CS)音声翻訳は、セマンティックモデリングの複雑さとデータの不足により、大きな課題となる。
これまでの研究では、トレーニング中に意味モデリングを暗黙的に学ぶためにモデル自体に依存していた。
本研究では,各専門家が特定の言語の意味的部分空間を専門とするMixture of Experts音声プロジェクタを用いた大規模言語モデルの拡張を提案する。
論文 参考訳(メタデータ) (2025-11-09T12:51:45Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。