論文の概要: Perceive, Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents
- arxiv url: http://arxiv.org/abs/2509.24943v1
- Date: Mon, 29 Sep 2025 15:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.099665
- Title: Perceive, Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents
- Title(参考訳): 長時間映像の知覚・反射・理解:対話型エージェントによる進行的多角的クリュー探索
- Authors: Jiahua Li, Kun Wei, Zhe Xu, Zibo Su, Xu Yang, Cheng Deng,
- Abstract要約: 時間的およびスパースなタスク関連情報を特徴とするロングビデオは、AIシステムに重大な推論課題を生じさせる。
人間のプログレッシブな視覚認知にインスパイアされ、我々はCogniGPTを効率的で信頼性の高い長時間ビデオ理解のために提案する。
- 参考スコア(独自算出の注目度): 60.095739427926524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long videos, characterized by temporal complexity and sparse task-relevant information, pose significant reasoning challenges for AI systems. Although various Large Language Model (LLM)-based approaches have advanced long video understanding, they still struggle to achieve both completeness and efficiency in capturing task-critical information. Inspired by human progressive visual cognition, we propose CogniGPT, a framework that leverages an interactive loop between Multi-Granular Perception Agent (MGPA) and Verification-Enhanced Reflection Agent (VERA) for efficient and reliable long video understanding. Specifically, MGPA mimics human visual divergent and focused attention to capture task-related information, while VERA verifies perceived key clues to mitigate hallucination and optimize subsequent perception strategies. Through this interactive process, CogniGPT explores a minimal set of informative and reliable task-related clues. Extensive experiments on EgoSchema, Video-MME, NExT-QA, and MovieChat datasets demonstrate CogniGPT's superiority in both accuracy and efficiency. Notably, on EgoSchema, it surpasses existing training-free methods using only 11.2 frames and achieves performance comparable to Gemini 1.5-Pro.
- Abstract(参考訳): 時間的複雑さとタスク関連情報の不足を特徴とするロングビデオは、AIシステムに重大な推論課題を生じさせる。
様々なLarge Language Model (LLM) ベースのアプローチでは、長いビデオ理解が進んでいるが、タスククリティカルな情報の取得において、完全性と効率性の両立に苦慮している。
人間のプログレッシブな視覚認知にインスパイアされたCogniGPTは、多言語知覚エージェント(MGPA)と検証強化反射エージェント(VERA)の対話的ループを利用して、効率的で信頼性の高い長時間ビデオ理解を実現するフレームワークである。
具体的には、MGPAは人間の視覚的発散を模倣し、タスク関連情報を捉え、VERAは幻覚を緩和し、その後の知覚戦略を最適化するための重要な手がかりを検証する。
この対話的なプロセスを通じて、CogniGPTは、情報的かつ信頼性の高いタスク関連ヒントの最小セットを探索する。
EgoSchema、Video-MME、NEXT-QA、MovieChatデータセットに関する大規模な実験は、CogniGPTが精度と効率の両方において優れていることを示す。
特に、EgoSchemaでは、11.2フレームしか使用していない既存のトレーニングフリーメソッドを超え、Gemini 1.5-Proに匹敵するパフォーマンスを実現している。
関連論文リスト
- In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting [12.567763863700058]
EgoGazeVQAは、MLLMによって生成され、ヒトアノテータによって精製される視線ベースのQAペアである。
実験の結果,既存のMLLMはユーザの意図を正確に解釈するのに苦労していることがわかった。
視線誘導型インテントプロンプト法は,空間的,時間的,意図に関連した手がかりを統合することにより,性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-09T07:11:56Z) - Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering [11.271123465926301]
マルチモーダルな大言語モデル(MLLM)は、ビジュアル質問回答において複雑な推論タスクに苦戦している。
質問の複雑さに動的に適応するプラグイン・アンド・プレイアプローチである FOCUS を提案する。
ScienceQA、TextQA、VizWiz、MMEの4つのベンチマークの実験では、FOCUSはオープンソースとブラックボックス両方のMLLMの性能を一貫して改善している。
論文 参考訳(メタデータ) (2025-06-01T03:15:29Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。