論文の概要: AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
- arxiv url: http://arxiv.org/abs/2509.17641v1
- Date: Mon, 22 Sep 2025 11:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.352623
- Title: AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?
- Title(参考訳): AuditoryBench++: 言語モデルは聴覚の知識に耳を傾けるか?
- Authors: Hyunjong Ok, Suho Yoo, Hyeonjun Kim, Jaeho Lee,
- Abstract要約: AuditoryBench++は、テキストのみの設定で聴覚知識と推論を評価するためのベンチマークである。
このベンチマークは、基本的な聴覚比較から文脈に基づく推論まで幅広いタスクを含んでいる。
また、推論中に聴覚情報を生成し統合する新しい聴覚想像力推論手法であるAIR-CoTを紹介する。
- 参考スコア(独自算出の注目度): 13.180643834705114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even without directly hearing sounds, humans can effortlessly reason about auditory properties, such as pitch, loudness, or sound-source associations, drawing on auditory commonsense. In contrast, language models often lack this capability, limiting their effectiveness in multimodal interactions. As an initial step to address this gap, we present AuditoryBench++, a comprehensive benchmark for evaluating auditory knowledge and reasoning in text-only settings. The benchmark encompasses tasks that range from basic auditory comparisons to contextually grounded reasoning, enabling fine-grained analysis of how models process and integrate auditory concepts. In addition, we introduce AIR-CoT, a novel auditory imagination reasoning method that generates and integrates auditory information during inference through span detection with special tokens and knowledge injection. Extensive experiments with recent LLMs and Multimodal LLMs demonstrate that AIR-CoT generally outperforms both the off-the-shelf models and those augmented with auditory knowledge. The project page is available at https://auditorybenchpp.github.io.
- Abstract(参考訳): 音を直接聞き取らなくても、音高、大音量、および音源の関連性といった聴覚特性について、人間は力ずくで判断することができる。
対照的に、言語モデルはこの機能を欠くことが多く、マルチモーダル相互作用における有効性を制限している。
このギャップに対処するための最初のステップとして、テキストのみの設定で聴覚知識と推論を評価するための包括的なベンチマークであるAuditoryBench++を紹介します。
このベンチマークは、基本的な聴覚比較から文脈に基づく推論まで幅広いタスクを含み、モデルがどのように処理し、聴覚概念を統合するかの詳細な分析を可能にする。
また,特殊なトークンや知識注入を用いたスパン検出により,推論中に聴覚情報を生成し,統合する新しい聴覚想像力推論手法であるAIR-CoTを紹介する。
最近のLLMとMultimodal LLMによる大規模な実験では、AIR-CoTは一般的に市販のモデルと聴覚知識を付加したモデルの両方よりも優れていることが示されている。
プロジェクトのページはhttps://auditorybenchpp.github.ioで公開されている。
関連論文リスト
- SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models [96.81401797908835]
SAKEは、大規模オーディオ言語モデルにおける聴覚属性知識の編集に特化して設計された最初のベンチマークである。
我々は,信頼性,汎用性,音声/テキストの局所性,可搬性という4次元の2つのLALMに対して,7つの編集手法をベンチマークした。
結果は、編集とは無関係な属性内知識の保存、マルチモーダル推論への編集の一般化、シーケンシャルな更新の下での編集の維持といった課題を浮き彫りにする。
論文 参考訳(メタデータ) (2025-10-19T16:22:09Z) - WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。
WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。
最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文 参考訳(メタデータ) (2025-08-28T16:29:46Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - Scaling Auditory Cognition via Test-Time Compute in Audio Language Models [9.927800622905265]
大規模言語モデル (LLM) は自然言語処理において極めて多目的性を示している。
音声LLMは音声認識や合成といったタスクに優れる。
現実の環境がもたらす聴覚的認知的課題に直面するとき、どのように機能するかは、まだ不明である。
論文 参考訳(メタデータ) (2025-03-30T11:04:18Z) - Imagine to Hear: Auditory Knowledge Generation can be an Effective Assistant for Language Models [11.136112399898481]
生成モデルを用いて聴覚知識を動的に生成する新しい手法であるImagine to Hearを提案する。
本フレームワークは、与えられたプロンプトから複数の音声関連テキストスパンを検出し、対応する聴覚知識を生成する。
実験の結果,外部データベースに頼らずにAuditoryBenchの最先端性能を実現することができた。
論文 参考訳(メタデータ) (2025-03-21T04:56:22Z) - AAD-LLM: Neural Attention-Driven Auditory Scene Understanding [9.596626274863832]
本稿では,聴取者の注意を喚起するために脳信号を統合するプロトタイプシステムAAD-LLMについて述べる。
AAD-LLMは、参加話者を神経活動から予測し、この推定された注意状態に対して応答生成を条件付ける。
話者記述, 音声の書き起こし, 抽出, 質問応答について, マルチストーカーのシナリオでAAD-LLMを評価する。
論文 参考訳(メタデータ) (2025-02-24T03:06:45Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AudioBERT: Audio Knowledge Augmented Language Model [11.136112399898481]
近年の研究では、テキストのみのデータセットで事前訓練された言語モデルには、基本的な視覚的知識が欠けていることが確認されている。
聴覚知識を評価するための2つの新しいタスクからなるAuditoryBenchというデータセットを構築した。
このベンチマークを用いて分析した結果,言語モデルにも聴覚的知識が不足していることが判明した。
本稿では,BERTの聴覚知識を検索ベースで拡張する新しい手法であるAudioBERTを提案する。
論文 参考訳(メタデータ) (2024-09-12T16:36:39Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。