論文の概要: AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
- arxiv url: http://arxiv.org/abs/2509.17641v1
- Date: Mon, 22 Sep 2025 11:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.352623
- Title: AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
- Title(参考訳): AuditoryBench++: 言語モデルは聴覚の知識に耳を傾けるか?
- Authors: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee,
- Abstract要約: AuditoryBench++は、テキストのみの設定で聴覚知識と推論を評価するためのベンチマークである。
このベンチマークは、基本的な聴覚比較から文脈に基づく推論まで幅広いタスクを含んでいる。
また、推論中に聴覚情報を生成し統合する新しい聴覚想像力推論手法であるAIR-CoTを紹介する。
- 参考スコア(独自算出の注目度): 13.180643834705114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that range from basic auditory comparisons to contextually grounded reasoning, enabling fine-grained analysis of how models process and integrate auditory concepts. In addition, we introduce AIR-CoT, a novel auditory imagination reasoning method that generates and integrates auditory information during inference through span detection with special tokens and knowledge injection. Extensive experiments with recent LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both the off-the-shelf models and those augmented with auditory knowledge. The project page is available at https://auditorybenchpp.github.io.
- Abstract(参考訳): 音を直接聞き取らなくても、音高、大音量、および音源の関連性といった聴覚特性について、人間は力ずくで判断することができる。
対照的に、言語モデルはこの機能を欠くことが多く、マルチモーダル相互作用における有効性を制限している。
このギャップに対処するための最初のステップとして、テキストのみの設定で聴覚知識と推論を評価するための包括的なベンチマークであるAuditoryBench++を紹介します。
このベンチマークは、基本的な聴覚比較から文脈に基づく推論まで幅広いタスクを含み、モデルがどのように処理し、聴覚概念を統合するかの詳細な分析を可能にする。
また,特殊なトークンや知識注入を用いたスパン検出により,推論中に聴覚情報を生成し,統合する新しい聴覚想像力推論手法であるAIR-CoTを紹介する。
最近のLLMとMultimodal LLMによる大規模な実験では、AIR-CoTは一般的に市販のモデルと聴覚知識を付加したモデルの両方よりも優れていることが示されている。
プロジェクトのページはhttps://auditorybenchpp.github.ioで公開されている。
関連論文リスト
- WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models [11.136112399898481]
生成モデルを用いて聴覚知識を動的に生成する新しい手法であるImagine to Hearを提案する。
本フレームワークは、与えられたプロンプトから複数の音声関連テキストスパンを検出し、対応する聴覚知識を生成する。
実験の結果,外部データベースに頼らずにAuditoryBenchの最先端性能を実現することができた。
論文 参考訳(メタデータ) (2025-03-21T04:56:22Z) - AAD-LLM: Neural Attention-Driven Auditory Scene Understanding [9.596626274863832]
本稿では,聴取者の注意を喚起するために脳信号を統合するプロトタイプシステムAAD-LLMについて述べる。
AAD-LLMは、参加話者を神経活動から予測し、この推定された注意状態に対して応答生成を条件付ける。
話者記述, 音声の書き起こし, 抽出, 質問応答について, マルチストーカーのシナリオでAAD-LLMを評価する。
論文 参考訳(メタデータ) (2025-02-24T03:06:45Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。