論文の概要: Investigating Modality Contribution in Audio LLMs for Music
- arxiv url: http://arxiv.org/abs/2509.20641v1
- Date: Thu, 25 Sep 2025 00:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.641496
- Title: Investigating Modality Contribution in Audio LLMs for Music
- Title(参考訳): 音楽用オーディオLLMにおけるモダリティ貢献の検討
- Authors: Giovana Morais, Magdalena Fuentes,
- Abstract要約: オーディオ大言語モデル(Audio LLMs)は、人間の音楽に関する会話を可能にする。
音声を本当に聴いているのか、それとも単にテキストによる推論を使っているのかは不明だ。
本稿では,モデル出力に対する各モダリティの寄与を定量化し,この問題を考察する。
- 参考スコア(独自算出の注目度): 8.118262908070152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Large Language Models (Audio LLMs) enable human-like conversation about music, yet it is unclear if they are truly listening to the audio or just using textual reasoning, as recent benchmarks suggest. This paper investigates this issue by quantifying the contribution of each modality to a model's output. We adapt the MM-SHAP framework, a performance-agnostic score based on Shapley values that quantifies the relative contribution of each modality to a model's prediction. We evaluate two models on the MuChoMusic benchmark and find that the model with higher accuracy relies more on text to answer questions, but further inspection shows that even if the overall audio contribution is low, models can successfully localize key sound events, suggesting that audio is not entirely ignored. Our study is the first application of MM-SHAP to Audio LLMs and we hope it will serve as a foundational step for future research in explainable AI and audio.
- Abstract(参考訳): オーディオ大言語モデル(Audio LLMs)は音楽に関する人間的な会話を可能にするが、最近のベンチマークで示唆されているように、本当に音声を聴いているのか、単にテキストによる推論を使っているのかは不明だ。
本稿では,モデル出力に対する各モダリティの寄与を定量化し,この問題を考察する。
モデルの予測に対する各モダリティの相対的寄与を定量化するShapley値に基づく,パフォーマンスに依存しないスコアであるMM-SHAPフレームワークを適応する。
我々は,MuChoMusicベンチマークの2つのモデルを評価し,高い精度のモデルはテキストに頼って質問に回答するが,さらに検査すると,全体の音声寄与が低い場合でも,主要な音声イベントのローカライズに成功し,音声が完全に無視されないことを示す。
我々の研究は、MM-SHAPのAudio LLMへの最初の応用であり、説明可能なAIとオーディオにおける将来の研究の基盤となることを願っている。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [33.114796739109075]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - SoundMind: RL-Incentivized Logic Reasoning for Audio-Language Models [43.46082014842855]
複雑な推論をサポートするために特別にキュレートされた6,446個のオーディオテキスト注釈付きサンプルのデータセットであるSoundMindを紹介する。
次に,規則に基づく強化学習(RL)アルゴリズムであるSoundMind-RLを提案する。
この研究は、高品質で推論にフォーカスしたデータセットと特殊なRL技術を組み合わせる利点を強調し、言語モデルにおける聴覚インテリジェンスの向上に貢献している。
論文 参考訳(メタデータ) (2025-06-15T18:26:08Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。