論文の概要: Towards Fine-Grained Code-Switch Speech Translation with Semantic Space Alignment
- arxiv url: http://arxiv.org/abs/2511.10670v1
- Date: Sun, 09 Nov 2025 12:51:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.247962
- Title: Towards Fine-Grained Code-Switch Speech Translation with Semantic Space Alignment
- Title(参考訳): 意味空間アライメントを用いた細粒度コードスイッチ音声翻訳に向けて
- Authors: Yan Gao, Yazheng Yang, Zhibin Lan, Yidong Chen, Min Zhang, Daimeng Wei, Hui Huang, Jinsong Su,
- Abstract要約: コードスイッチング(CS)音声翻訳は、セマンティックモデリングの複雑さとデータの不足により、大きな課題となる。
これまでの研究では、トレーニング中に意味モデリングを暗黙的に学ぶためにモデル自体に依存していた。
本研究では,各専門家が特定の言語の意味的部分空間を専門とするMixture of Experts音声プロジェクタを用いた大規模言語モデルの拡張を提案する。
- 参考スコア(独自算出の注目度): 47.209852464226856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS) speech translation (ST) refers to translating speech that alternates between two or more languages into a target language text, which poses significant challenges due to the complexity of semantic modeling and the scarcity of CS data. Previous studies tend to rely on the model itself to implicitly learn semantic modeling during training, and resort to inefficient and costly manual annotations for these two challenges. To mitigate these limitations, we propose enhancing Large Language Models (LLMs) with a Mixture of Experts (MoE) speech projector, where each expert specializes in the semantic subspace of a specific language, enabling fine-grained modeling of speech features. Additionally, we introduce a multi-stage training paradigm that utilizes readily available monolingual automatic speech recognition (ASR) and monolingual ST data, facilitating speech-text alignment and improving translation capabilities. During training, we leverage a combination of language-specific loss and intra-group load balancing loss to guide the MoE speech projector in efficiently allocating tokens to the appropriate experts, across expert groups and within each group, respectively. To bridge the data gap across different training stages and improve adaptation to the CS scenario, we further employ a transition loss, enabling smooth transitions of data between stages, to effectively address the scarcity of high-quality CS speech translation data. Extensive experiments on widely used datasets demonstrate the effectiveness and generality of our approach.
- Abstract(参考訳): Code-switching (CS) 音声翻訳 (ST) は、2つ以上の言語を対象とする言語テキストに交互に翻訳する言語である。
これまでの研究では、トレーニング中に意味モデリングを暗黙的に学習し、これらの2つの課題に対して非効率でコストのかかる手作業によるアノテーションに頼るために、モデル自体に依存していた。
これらの制約を緩和するため、我々はMixture of Experts (MoE)音声プロジェクタによるLarge Language Models (LLMs)の拡張を提案し、各専門家が特定の言語のセマンティックサブ空間を専門とし、音声特徴のきめ細かいモデリングを可能にする。
さらに、単言語自動音声認識(ASR)と単言語STデータを利用する多段階学習パラダイムを導入し、音声テキストのアライメントを容易にし、翻訳能力を向上させる。
訓練中は,言語固有の損失とグループ内負荷分散損失の組み合わせを利用して,各グループ内および専門家グループ間で,適切な専門家にトークンを効率的に割り当てるようにMoE音声プロジェクタを誘導する。
異なる訓練段階にまたがるデータギャップを埋め、CSシナリオへの適応を改善するため、我々はさらに移行損失を導入し、段階間のデータのスムーズな遷移を可能にし、高品質なCS音声翻訳データの不足に効果的に対処する。
広く使われているデータセットに対する大規模な実験は、我々のアプローチの有効性と一般性を示している。
関連論文リスト
- PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Low-Rank and Sparse Model Merging for Multi-Lingual Speech Recognition and Translation [7.437128866333448]
異なる言語やタスクでトレーニングされたモデルを効率的に統合する新しいテクニックであるLoRS-Mergingを紹介する。
LoRS-Mergingは低ランクとスパースプルーニングを組み合わせることで、冗長なパラメータを排除しながら本質的な構造を維持する。
10言語にわたる実験の結果、LoRS-Mergingは多言語マルチタスクトレーニングよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-02-24T18:06:57Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。