論文の概要: Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving
- arxiv url: http://arxiv.org/abs/2505.18644v1
- Date: Sat, 24 May 2025 11:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.56176
- Title: Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving
- Title(参考訳): マルチタスク行動模倣と音声テキストインターリーブを用いた大規模言語モデルの一般化の促進
- Authors: Jingran Xie, Xiang Li, Hui Wang, Yue Yu, Yang Xiang, Xixin Wu, Zhiyong Wu,
- Abstract要約: 大規模言語モデル(LLM)はタスク間で顕著な一般化を示している。
LLMは通常、教師付き微調整を使用して、テキストベースのLLMと音声を一致させる。
本稿では,音声テキストをインターリーブしたマルチタスクの「行動模倣」手法を提案する。
- 参考スコア(独自算出の注目度): 36.246791887458194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable generalization across tasks, leading to increased interest in integrating speech with LLMs. These speech LLMs (SLLMs) typically use supervised fine-tuning to align speech with text-based LLMs. However, the lack of annotated speech data across a wide range of tasks hinders alignment efficiency, resulting in poor generalization. To address these issues, we propose a novel multi-task 'behavior imitation' method with speech-text interleaving, called MTBI, which relies solely on paired speech and transcripts. By ensuring the LLM decoder generates equivalent responses to paired speech and text, we achieve a more generalized SLLM. Interleaving is used to further enhance alignment efficiency. We introduce a simple benchmark to evaluate prompt and task generalization across different models. Experimental results demonstrate that our MTBI outperforms SOTA SLLMs on both prompt and task generalization, while requiring less supervised speech data.
- Abstract(参考訳): 大規模言語モデル(LLM)はタスク間で顕著な一般化を示しており、LLMと音声の統合への関心が高まっている。
これらの音声LLM(SLLM)は、典型的には教師付き微調整を用いてテキストベースのLLMと整列する。
しかし、幅広いタスクにわたる注釈付き音声データの欠如はアライメント効率を損なうため、一般化は不十分である。
これらの課題に対処するために, MTBIと呼ばれる, ペア音声と転写文のみに依存する, 音声テキストインターリーブによるマルチタスク・ビヘイビア・模倣手法を提案する。
LLMデコーダがペア音声とテキストに対して等価な応答を生成することを保証することにより、より一般化されたSLLMを実現する。
インターリービングはアライメント効率をさらに高めるために使用される。
異なるモデル間でのプロンプトとタスクの一般化を評価するための簡単なベンチマークを導入する。
実験の結果, MTBIは, 教師あり音声データが少なく, プロンプトとタスクの一般化においてSOTA SLLMよりも優れていた。
関連論文リスト
- Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。