論文の概要: An Evaluation of Interleaved Instruction Tuning on Semantic Reasoning Performance in an Audio MLLM
- arxiv url: http://arxiv.org/abs/2511.02234v1
- Date: Tue, 04 Nov 2025 03:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.799252
- Title: An Evaluation of Interleaved Instruction Tuning on Semantic Reasoning Performance in an Audio MLLM
- Title(参考訳): 音声MLLMにおけるインターリーブ指導のセマンティック推論性能評価
- Authors: Jiawei Liu, Enis Berk Çoban, Zarina Schevchenko, Hao Tang, Zhigang Zhu, Michael I Mandel, Johanna Devaney,
- Abstract要約: 本研究は,プロンプト内で音声トークンをインターリーブするMLLMにおいて,インターリーブド・インストラクション・チューニングが与える影響について検討した。
その結果,ゼロショットインターリーブでも推論タスクの性能は向上するが,微調整が少なすぎると結果がさらに改善することがわかった。
- 参考スコア(独自算出の注目度): 15.340075567628466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard training for Multi-modal Large Language Models (MLLMs) involves concatenating non-textual information, like vision or audio, with a text prompt. This approach may not encourage deep integration of modalities, limiting the model's ability to leverage the core language model's reasoning capabilities. This work examined the impact of interleaved instruction tuning in an audio MLLM, where audio tokens are interleaved within the prompt. Using the Listen, Think, and Understand (LTU) model as a testbed, we conduct an experiment using the Synonym and Hypernym Audio Reasoning Dataset (SHARD), our newly created reasoning benchmark for audio-based semantic reasoning focusing on synonym and hypernym recognition. Our findings show that while even zero-shot interleaved prompting improves performance on our reasoning tasks, a small amount of fine-tuning using interleaved training prompts improves the results further, however, at the expense of the MLLM's audio labeling ability.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の標準トレーニングでは、視覚や音声などの非テキスト情報をテキストプロンプトで結合する。
このアプローチは、モダリティの深い統合を促進せず、コア言語モデルの推論能力を利用するモデルの能力を制限します。
本研究は,プロンプト内に音声トークンをインターリーブするMLLMにおいて,インターリーブド・インストラクション・チューニングが与える影響について検討した。
本稿では、LTUモデルをテストベッドとして使用し、同義語とハイパーニム認識に着目した音声に基づく意味推論のための新たな推論ベンチマークであるSynonym and Hypernym Audio Reasoning Dataset(SHARD)を用いて実験を行う。
その結果,ゼロショットインターリーブドさえも推論タスクのパフォーマンスを向上させる一方で,インターリーブドトレーニングによる微調整はMLLMの音声ラベリング能力を犠牲にしてさらに改善することがわかった。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。