論文の概要: Act2See: Emergent Active Visual Perception for Video Reasoning
- arxiv url: http://arxiv.org/abs/2605.01657v1
- Date: Sun, 03 May 2026 00:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.871856
- Title: Act2See: Emergent Active Visual Perception for Video Reasoning
- Title(参考訳): Act2See: ビデオ推論のための創発的なアクティブな視覚知覚
- Authors: Martin Q. Ma, Yuxiao Qu, Aditya Agrawal, Willis Guo, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency,
- Abstract要約: VLM(Vision-Language Models)は通常、ビデオの推論に静的な初期フレームに依存している。
本稿では,アクト・ツー・シー(Act2See)という,アクティブな視覚知覚を実現する新しいフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 70.52373240573856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) typically rely on static initial frames for video reasoning, restricting their ability to incorporate essential dynamic information as the reasoning process evolves. Existing methods that augment Chain-of-Thought (CoT) with additional frame information often exhibit suboptimal CoT quality and lack the crucial ability to synthesize visual information for hypothetical or counterfactual scenarios. We introduce Act-to-See (Act2See), a novel framework that enables active visual perception by empowering VLMs to actively interleave video frames within text CoTs. Act2See is developed via Supervised Fine-Tuning (SFT) on a high-quality dataset of reasoning traces generated by a frontier VLM. These traces integrate active calls to either retrieve existing frames or generate new ones, and are rigorously verified against human-annotated CoTs to ensure quality. This approach cultivates an emergent capability: at inference time, the model actively determines when to search for or synthesize the necessary visual evidence. Act2See establishes new state-of-the-art results on challenging benchmarks, including VideoEspresso and ViTIB, and outperforms comparable or larger models on Video-MME, EgoNormia, and VCR-Bench, demonstrating an advancement in enabling VLMs with active visual perception for video reasoning.
- Abstract(参考訳): VLM(Vision-Language Models)は、ビデオ推論において静的な初期フレームに依存し、推論プロセスが進化するにつれて重要な動的情報を組み込む能力を制限する。
フレーム情報を追加してChain-of-Thought(CoT)を増強する既存の方法は、しばしば最適なCoTの品質を示し、仮説や反現実的なシナリオのために視覚情報を合成する重要な能力が欠如している。
本稿では,テキストCoT内の映像フレームを積極的にインターリーブするVLMを有効活用することで,アクティブな視覚知覚を可能にする新しいフレームワークであるAct-to-Seeを紹介する。
Act2Seeは、フロンティアVLMによって生成された推論トレースの高品質データセットに基づいて、Supervised Fine-Tuning (SFT)を介して開発されている。
これらのトレースは、アクティブコールを統合して、既存のフレームを検索するか、新しいフレームを生成する。
この手法は創発的能力(英語版)を育成する:推論時に、モデルは必要な視覚的証拠をいつ検索するか、あるいは合成するかを積極的に決定する。
Act2Seeは、VideoEspressoやViTIBなどの挑戦的なベンチマークで新たな最先端の結果を確立し、Video-MME、EgoNormia、VCR-Benchで同等またはそれ以上のモデルをパフォーマンスし、ビデオ推論のためにアクティブな視覚的知覚でVLMを有効にする進歩を実証する。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。