論文の概要: Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision
- arxiv url: http://arxiv.org/abs/2603.07025v1
- Date: Sat, 07 Mar 2026 04:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.693947
- Title: Language-Aware Distillation for Multilingual Instruction-Following Speech LLMs with ASR-Only Supervision
- Title(参考訳): ASR-Only Supervision を用いた多言語命令追従音声LLMのための言語対応蒸留法
- Authors: Shreyas Gopal, Donghang Wu, Ashutosh Anshul, Yeo Yue Heng, Yizhou Peng, Haoyang Li, Hexin Liu, Eng Siong Chng,
- Abstract要約: 多くの言語で命令を理解し、従う音声大言語モデル(LLM)は、実世界の対話に有用である。
最近の蒸留法に基づくアプローチでは、注釈付きASRデータのみを用いて、軽量プロジェクタのみを用いてテキストと音声をアライメントすることで、英文のみのLLMを訓練している。
クエリバンクとゲーティングネットワークを用いて,Q-Formerプロジェクタを用いてクエリトークンを選択または混合する言語対応蒸留を導入することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 36.3996368188181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Large Language Models (LLMs) that understand and follow instructions in many languages are useful for real-world interaction, but are difficult to train with supervised fine-tuning, requiring large, task-specific speech corpora. While recent distillation-based approaches train performant English-only Speech LLMs using only annotated ASR data by aligning text and speech using only a lightweight projector, these models under-perform when scaled to multilingual settings due to language interference in the shared projector. We address this by introducing language-aware distillation using a query bank and a gating network that selects or mixes query tokens using a Q-Former projector. Our approach shows gains of 14% over matched multilingual distillation baselines on instruction following. We further synthesize Audio-MLQA, a multilingual spoken QA benchmark built on MLQA with high-quality TTS questions. Our best model improves over existing Speech LLM baselines by 32% on Audio-MLQA.
- Abstract(参考訳): 多くの言語で命令を理解し、従う音声大言語モデル(LLM)は、実世界の対話に有用であるが、教師付き微調整で訓練することは困難であり、大きなタスク固有の音声コーパスを必要とする。
近年の蒸留法に基づくアプローチでは、アノテートされたASRデータのみを用いて、軽量プロジェクタのみでテキストと音声をアライメントすることで、パフォーマンスの高い英語のみのLLMを訓練するが、共有プロジェクタにおける言語干渉による多言語設定へのスケールでは、これらのモデルは低性能である。
クエリバンクとゲーティングネットワークを用いて,Q-Formerプロジェクタを用いてクエリトークンを選択または混合する言語対応蒸留を導入することで,この問題に対処する。
提案手法は, 指示に基づく多言語蒸留ベースラインよりも14%向上したことを示す。
さらに,高品質TTS質問を用いたMLQAに基づく多言語音声QAベンチマークであるAudio-MLQAを合成する。
音声MLQAでは,既存のLLMベースラインよりも32%向上した。
関連論文リスト
- PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Speech LLMs in Low-Resource Scenarios: Data Volume Requirements and the Impact of Pretraining on High-Resource Languages [9.577509224534323]
大規模言語モデル (LLM) は, 様々なタスクにおいて, 音声入力を高速に処理し, 最先端の性能に到達する可能性を実証している。
本研究では,SLAM-ASRフレームワークを用いた低リソース自動音声認識におけるLLMの利用について検討する。
単言語または多言語プロジェクタを高ソース言語で事前訓練することにより,データ不足の影響を低減できることを示す。
論文 参考訳(メタデータ) (2025-08-07T08:33:42Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Enhancing Code-switched Text-to-Speech Synthesis Capability in Large Language Models with only Monolingual Corpora [13.891322931352649]
本稿では,CS-LLM(Code-Switched Large Language Model)を提案する。
具体的には、多言語音声認識と合成タスクにより、LLMの多言語音声処理能力を向上することから始める。
我々は,CS TTS 能力を改善した LLM を装備するために,異なる単言語音声コーパスから単語を分割・分割する効果的なコードスイッチング(CS)データ構築戦略を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。