論文の概要: AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
- arxiv url: http://arxiv.org/abs/2506.05328v1
- Date: Thu, 05 Jun 2025 17:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.892906
- Title: AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
- Title(参考訳): AV-Reasoner:MLLMのためのクレーグラウンドオーディオ-ビジュアルカウントの改善とベンチマーク
- Authors: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu,
- Abstract要約: CG-AV-Countingは、手動で注釈付き手掛かり付き数え上げベンチマークで、1,027のマルチモーダル質問と5,845の注釈付き手掛かりを497本の長ビデオで紹介する。
ブラックボックスとホワイトボックスの評価の両方をサポートし、エンドツーエンドと推論ベースのカウントのための包括的なテストベッドとして機能する。
AV-Reasonerは、GRPOとカリキュラム学習で訓練されたモデルであり、関連するタスクからカウント能力を一般化する。
- 参考スコア(独自算出の注目度): 22.357762402346403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.
- Abstract(参考訳): ビデオ理解の進歩にもかかわらず、現在のMLLMはタスクのカウントに苦労している。
既存のベンチマークは、ショートビデオ、クローズセットクエリ、ヒントアノテーションの欠如、マルチモーダルカバレッジの弱さによって制限されている。
CG-AV-Countingは手動で注釈付き手掛かり付き数えるベンチマークで,1027のマルチモーダル質問と5,845の注釈付き手掛かりを497本の長ビデオで紹介する。
ブラックボックスとホワイトボックスの評価の両方をサポートし、エンドツーエンドと推論ベースのカウントのための包括的なテストベッドとして機能する。
AV-Reasonerは、GRPOで訓練されたモデルであり、関連するタスクからカウント能力を一般化するためのカリキュラム学習である。
AV-Reasonerは、複数のベンチマークで最先端の結果を達成し、強化学習の有効性を実証する。
しかし、実験により、ドメイン外のベンチマークでは、言語領域における推論がパフォーマンス向上をもたらすことが示される。
コードとベンチマークはhttps://av-reasoner.github.ioで公開された。
関連論文リスト
- MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos [22.10711693948861]
ビデオにおけるマルチモーダルディープ推論のためのベンチマークMMR-Vを提案する。
ベンチマークの特徴は以下のとおりである。
実験によると、現在のモデルはまだマルチモーダル推論に苦戦している。
論文 参考訳(メタデータ) (2025-06-04T16:33:41Z) - Aurelia: Test-time Reasoning Distillation in Audio-Visual LLMs [72.5567678952768]
AURELIA(オーレリア)は、アクターに批判的なオーディオヴィジュアル(AV)推論フレームワークである。
構造体を蒸留し、試験時に段階的にAVLLMに蒸留する。
AURELIAを用いて、100%の相対的な改善を実現し、その効果を実証した。
論文 参考訳(メタデータ) (2025-03-29T20:42:29Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - SVBench: A Benchmark with Temporal Multi-Turn Dialogues for Streaming Video Understanding [56.78088668917983]
SVBenchは時間的マルチターン質問応答チェーンを用いた先駆的ベンチマークである。
半自動アノテーションパイプラインを設計し、49,979対のQA(QA)と1,353本のストリーミングビデオを取得する。
対話とストリーミング評価の14モデルから得られた実験結果から, クローズドソースのGPT-4oは他より優れているが, 大部分のオープンソースLVLMは, 長文のストリーミングビデオ理解に苦慮していることがわかった。
論文 参考訳(メタデータ) (2025-02-15T14:29:44Z) - CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding [43.858197893052115]
CG-Benchは、長いビデオのヒント付き質問応答のための新しいベンチマークである。
14の一次カテゴリ、171の二次カテゴリ、638の第三カテゴリからなる粒度のシステムで、1,219の動画を手作業でキュレートする。
このベンチマークには、知覚、推論、幻覚という3つの主要な質問タイプに12,129のQAペアが含まれている。
論文 参考訳(メタデータ) (2024-12-16T18:46:45Z) - VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding [48.26536049440913]
ビデオ大マルチモーダルモデル(LMM)は、ビデオ理解と推論能力を大幅に改善した。
彼らのパフォーマンスは、トレーニングデータで不足しているOOD(out-of-distriion)タスクに低下する。
OODデータセットの微調整のような従来の手法は、高い計算コストのために実用的ではない。
OODタスクのための新しいビデオインコンテキスト学習フレームワークであるVideoICLを提案する。
論文 参考訳(メタデータ) (2024-12-03T05:54:43Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。