論文の概要: See What You Need: Query-Aware Visual Intelligence through Reasoning-Perception Loops
- arxiv url: http://arxiv.org/abs/2508.17932v1
- Date: Mon, 25 Aug 2025 12:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.760066
- Title: See What You Need: Query-Aware Visual Intelligence through Reasoning-Perception Loops
- Title(参考訳): 必要なものは何か:Reasoning-Perception Loopsによるクエリ対応ビジュアルインテリジェンス
- Authors: Zixuan Dong, Baoyun Peng, Yufei Wang, Lin Liu, Xinxin Dong, Yunlong Cao, Xiaodong Wang,
- Abstract要約: 本稿では、推論、認識調整を通じて映像理解に革命をもたらすトレーニングフリーのフレームワークであるCAVIAを提案する。
視覚処理が推論とは無関係に機能する従来の手法とは異なり、CAVIAは推論が識別された情報ギャップに基づいて視覚的抽出を継続的に導く閉ループシステムを作成する。
- 参考スコア(独自算出の注目度): 12.59611152403781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human video comprehension demonstrates dynamic coordination between reasoning and visual attention, adaptively focusing on query-relevant details. However, current long-form video question answering systems employ rigid pipelines that decouple reasoning from perception, leading to either information loss through premature visual abstraction or computational inefficiency through exhaustive processing. The core limitation lies in the inability to adapt visual extraction to specific reasoning requirements, different queries demand fundamentally different visual evidence from the same video content. In this work, we present CAVIA, a training-free framework that revolutionizes video understanding through reasoning, perception coordination. Unlike conventional approaches where visual processing operates independently of reasoning, CAVIA creates a closed-loop system where reasoning continuously guides visual extraction based on identified information gaps. CAVIA introduces three innovations: (1) hierarchical reasoning, guided localization to precise frames; (2) cross-modal semantic bridging for targeted extraction; (3) confidence-driven iterative synthesis. CAVIA achieves state-of-the-art performance on challenging benchmarks: EgoSchema (65.7%, +5.3%), NExT-QA (76.1%, +2.6%), and IntentQA (73.8%, +6.9%), demonstrating that dynamic reasoning-perception coordination provides a scalable paradigm for video understanding.
- Abstract(参考訳): 人間のビデオ理解は、推論と視覚的注意の動的調整を示し、クエリ関連の詳細に適応的にフォーカスする。
しかし、現在の長文ビデオ質問応答システムでは、推論を知覚から切り離す厳密なパイプラインを用いており、早めの視覚的抽象化による情報損失や、徹底的な処理による計算不効率が生じる。
中心となる制限は、特定の推論要求に視覚的抽出を適用することができないことにあり、異なるクエリは、同じビデオコンテンツから根本的に異なる視覚的証拠を要求する。
本研究では、推論、知覚調整を通じて映像理解に革命をもたらすトレーニングフリーフレームワークであるCAVIAを提案する。
視覚処理が推論とは無関係に機能する従来の手法とは異なり、CAVIAは推論が識別された情報ギャップに基づいて視覚的抽出を継続的に導く閉ループシステムを作成する。
CAVIA は,(1) 階層的推論, 正確なフレームへの局所化, (2) 対象抽出のためのクロスモーダルなセマンティックブリッジ, (3) 信頼駆動的反復合成の3つの革新を導入している。
CAVIAは、EgoSchema (65.7%, +5.3%), NExT-QA (76.1%, +2.6%), IntentQA (73.8%, +6.9%)という挑戦的なベンチマークで最先端のパフォーマンスを実現し、動的推論と知覚の調整がビデオ理解にスケーラブルなパラダイムを提供することを示した。
関連論文リスト
- ImplicitQA: Going beyond frames towards Implicit Video Reasoning [36.65883181090953]
ImplicitQAは暗黙の推論でモデルをテストするために設計された新しいベンチマークである。
320以上の高品質なクリエイティビティビデオクリップから得られた、1Kの微妙な注釈付きQAペアで構成されている。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Interpretable Visual Question Answering via Reasoning Supervision [4.76359068115052]
トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。
本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。
提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2023-09-07T14:12:31Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。