論文の概要: ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval
- arxiv url: http://arxiv.org/abs/2605.03361v1
- Date: Tue, 05 May 2026 04:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.770103
- Title: ReasonAudio: A Benchmark for Evaluating Reasoning Beyond Matching in Text-Audio Retrieval
- Title(参考訳): ReasonAudio: テキスト監査検索におけるマッチングを超えて推論を評価するベンチマーク
- Authors: Honglei Zhang, Yuting Chen, Chenpeng Hu, Siyue Zhang, Yilei Shi,
- Abstract要約: ReasonAudioはText-Audio Retrievalの最初の推論集約型ベンチマークである。
1000のクエリと10,000の合成オーディオクリップからなり、ネゲーション、オーダー、オーバーラップ、デュレーション、ミックスの5つの基本的な推論タスクにまたがる。
我々の10種類の最先端モデルに対する評価では、以下の結果が示される: すべてのモデルは、推論集約的な音声検索に苦慮する。
- 参考スコア(独自算出の注目度): 9.400944614656735
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As multimodal content continues to expand at a rapid pace, audio retrieval has emerged as a key enabling technology for media search, content organization, and intelligent assistants. However, most existing benchmarks concentrate on semantic matching and fail to capture the fact that real-world queries often demand advanced reasoning abilities, including negation understanding, temporal ordering, concurrent event recognition, and duration discrimination. To address this gap, we introduce ReasonAudio, the first reasoning-intensive benchmark for Text-Audio Retrieval, comprising 1,000 queries and 10,000 composite audio clips across five fundamental reasoning tasks: Negation, Order, Overlap, Duration, and Mix. Despite their intuitive nature for humans and straightforward construction, these tasks pose significant challenges to current models. Our evaluation of ten state-of-the-art models reveals the following findings: All models struggle with reasoning-intensive audio retrieval, performing particularly poorly on Negation and Duration while showing relatively better results on Overlap and Order. Moreover, Multimodal Large Language Model-based embedding models fail to inherit the reasoning capabilities of their backbones through contrastive fine-tuning, suggesting that current training paradigms are insufficient to preserve reasoning capacity in retrieval settings
- Abstract(参考訳): マルチモーダルコンテンツは急速に拡大し続けており、メディア検索、コンテンツ組織、インテリジェントアシスタントの鍵となる技術として、音声検索が登場している。
しかし、既存のベンチマークのほとんどはセマンティックマッチングに集中しており、現実のクエリが否定的理解、時間的順序付け、同時イベント認識、時間的区別といった高度な推論能力を必要とするという事実を捉えていない。
このギャップに対処するため、テキストオーディオ検索のための最初の推論集約ベンチマークであるReasonAudioを紹介します。
人間にとって直感的な性質と簡単な構成にもかかわらず、これらのタスクは現在のモデルに重大な課題をもたらす。
全てのモデルは推論集約的な音声検索に苦戦し、特に否定と継続に悪影響を及ぼし、オーバーラップとオーダーでは比較的良い結果を示した。
さらに、マルチモーダル大規模言語モデルに基づく埋め込みモデルは、対照的な微調整により、バックボーンの推論能力の継承に失敗し、現在のトレーニングパラダイムは、検索設定における推論能力を維持するのに不十分であることを示唆している。
関連論文リスト
- Koopman Regularized Deep Speech Disentanglement for Speaker Verification [6.659299099827954]
DKSD-AE(Deep Koopman Speech Disentanglement Autoencoder)
本稿では,複数ステップのKoopman演算子学習モジュールとインスタンス正規化を組み合わせた構造化オートエンコーダを提案する。
この結果から,コープマンに基づく時間モデルと実例正規化を組み合わせることで,話者中心の表現学習における効率的かつ原理的な解が得られることが示唆された。
論文 参考訳(メタデータ) (2026-03-05T17:30:18Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - Discrete Audio Tokens: More Than a Survey! [137.3721175670642]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。