論文の概要: ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2510.23558v1
- Date: Mon, 27 Oct 2025 17:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:22.02788
- Title: ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
- Title(参考訳): ISA-Bench:大規模オーディオ言語モデルに対するインストラクション感度のベンチマーク
- Authors: Bohan Li, Wenbin Huang, Yuhang Qiu, Yiwei Guo, Hankun Wang, Zhihan Li, Jing Peng, Ziyang Ma, Xie Chen, Kai Yu,
- Abstract要約: 大規模音声言語モデル(LALM)は、音声から多様な情報を抽出し、理解する。
LALMは命令の言い方に非常に敏感であり、命令追従率やタスクパフォーマンスに影響を及ぼす。
本稿では,命令記述,出力形式,タスク構成という3つの軸に沿って,LALMの命令感度を評価するベンチマークであるISA-Benchを紹介する。
- 参考スコア(独自算出の注目度): 28.350243803500504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio Language Models (LALMs), which couple acoustic perception with large language models (LLMs) to extract and understand diverse information from audio, have attracted intense interest from both academic and industrial communities. However, existing LALMs are highly sensitive to how instructions are phrased, affecting both (i) instruction-following rates and (ii) task performance. Yet, no existing benchmarks offer a systematic and comprehensive evaluation of this sensitivity. We introduce ISA-Bench, a dynamic benchmark evaluating instruction sensitivity for LALMs along three axes: instruction description, output format, and task composition. We assess recent open-source and proprietary LALMs using ISA-Bench, profiling both compliance and accuracy under controlled instruction variations. Experimental results reveal that even state-of-the-art LALMs suffer significant instruction sensitivity, leading to degraded performance on fundamental audio understanding tasks. To mitigate this issue, we fine-tune Qwen2-Audio on a specifically constructed complex instruction-variant dataset, achieving a marked improvement in instruction-following performance. However, this also induces nontrivial catastrophic forgetting: the model loses some previously mastered task capabilities when exposed to new instruction styles. Our benchmark provides a standardized basis for assessing and improving instruction sensitivity in LALMs, underscoring the need for instruction-robust audio understanding in real-world pipelines.
- Abstract(参考訳): LALM(Large Audio Language Models)は、大規模言語モデル(LLM)と音響知覚を組み合わせて、音声から多様な情報を抽出し理解する手法である。
しかし、既存のLALMは命令の言い方に非常に敏感であり、両方に影響を及ぼす。
(i)指示追従率及び指示追従率
(ii)タスクパフォーマンス。
しかし、この感度の体系的かつ包括的な評価を提供する既存のベンチマークは存在しない。
本稿では,命令記述,出力形式,タスク構成という3つの軸に沿って,LALMの命令感度を評価する動的ベンチマークであるISA-Benchを紹介する。
ISA-Bench を用いた最近のオープンソースおよびプロプライエタリな LALM の評価を行い、制御された命令変動下でのコンプライアンスと正確性の両方をプロファイリングする。
実験結果から,最先端のLALMでも命令感度が著しく低下し,基本的音声理解タスクの性能が低下することが明らかとなった。
この問題を軽減するため、特定の構成の複雑な命令変種データセット上でQwen2-Audioを微調整し、命令追従性能を著しく改善した。
しかし、これはまた、非自明な破滅的な忘れを招き、新しい命令スタイルに晒されると、以前にマスターされたタスク能力を失う。
本ベンチマークでは、LALMにおける命令感度の評価と改善のための標準化された基盤を提供し、実世界のパイプラインにおける命令ロバストな音声理解の必要性を強調する。
関連論文リスト
- AU-Harness: An Open-Source Toolkit for Holistic Evaluation of Audio LLMs [8.918587474371321]
大規模音声言語モデル(LALM)は急速に進歩しているが、評価は依然として難しい。
LALMの効率的かつ包括的な評価フレームワークであるAU-Harnessを紹介する。
本システムでは,バッチ処理と並列実行を最適化することにより,既存のツールキットよりも最大127%の高速化を実現している。
論文 参考訳(メタデータ) (2025-09-09T15:30:40Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。