論文の概要: POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation
- arxiv url: http://arxiv.org/abs/2511.09232v1
- Date: Thu, 13 Nov 2025 01:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.478715
- Title: POTSA: A Cross-Lingual Speech Alignment Framework for Low Resource Speech-to-Text Translation
- Title(参考訳): POTSA:低リソース音声テキスト翻訳のための言語間音声アライメントフレームワーク
- Authors: Xuanchen Li, Chenrui Cui, Tianrui Wang, Meng Ge, Zikang Huang, Jin Li, Yizhou Peng, Longbiao Wang, Jianwu Dang, Nyima Tashi,
- Abstract要約: 本稿では,言語間並列音声ペアと,高リソースと低リソースの翻訳ギャップを橋渡しする最適トランスポート(OT)に基づく新しいフレームワークを提案する。
提案手法は,平均5言語以上で+0.93 BLEU,ゼロショット言語で+5.05 BLEUのSOTA性能を実現する。
- 参考スコア(独自算出の注目度): 47.51298472124902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Large Language Models (SpeechLLMs) have achieved breakthroughs in multilingual speech-to-text translation (S2TT). However, existing approaches often overlook semantic commonalities across source languages, leading to biased translation performance. In this work, we propose \textbf{POTSA} (Parallel Optimal Transport for Speech Alignment), a new framework based on cross-lingual parallel speech pairs and Optimal Transport (OT), designed to bridge high- and low-resource translation gaps. First, we introduce a Bias Compensation module to coarsely align initial speech representations across languages. Second, we impose token-level OT constraints on a Q-Former using parallel speech pairs to establish fine-grained consistency of representations. Then, we apply a layer scheduling strategy to focus OT constraints on the most semantically beneficial layers. Experiments on the FLEURS dataset show that our method achieves SOTA performance, with +0.93 BLEU on average over five common languages and +5.05 BLEU on zero-shot languages, using only 10 hours of parallel speech per source language.
- Abstract(参考訳): 音声大言語モデル(SpeechLLMs)は多言語音声テキスト翻訳(S2TT)においてブレークスルーを達成した。
しかし、既存のアプローチはソース言語間のセマンティックな共通点を見落とし、翻訳性能のバイアスにつながることが多い。
本研究では,言語間並列音声ペアに基づく新しいフレームワークである‘textbf{POTSA}(Parallel Optimal Transport for Speech Alignment)と,高解像度および低解像度の翻訳ギャップを橋渡しするために設計されたOT(Optimal Transport)を提案する。
まず,言語間の初期表現を粗く整列するBias Compensationモジュールを提案する。
第二に、パラレル音声ペアを用いてQ-FormerにトークンレベルのOT制約を課し、表現のきめ細かい一貫性を確立する。
次に、層スケジューリング戦略を適用し、OT制約を最も意味的に有益な層にフォーカスする。
FLEURSデータセットを用いた実験の結果,平均5つの共通言語で+0.93 BLEU,ゼロショット言語で+5.05 BLEU,ソース言語で10時間並列音声を用いた+0.93 BLEUのSOTA性能が得られた。
関連論文リスト
- Align2Speak: Improving TTS for Low Resource Languages via ASR-Guided Online Preference Optimization [13.222167833914924]
自動回帰型多言語TSモデルを新しい言語に適用するためのフレームワークを提案する。
我々は、ターゲット言語の韻律的特徴を捉えるために、新しい言語の限られたペアデータに基づいて、このモデルを微調整する。
実験により、このパイプラインは低リソース言語で理解不能で話者一貫性のある音声を生成することが示された。
論文 参考訳(メタデータ) (2025-09-26T00:28:50Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。