Act2See: Emergent Active Visual Perception for Video Reasoning
Abstractの概要
Act2Seeは、視覚言語モデルが思考連鎖(Chain of Thought)の中で視覚的証拠を能動的にインターリーブできるようにする、ビデオ推論のための教師あり微調整フレームワークである。静的な初期フレームのみに依存するのではなく、モデルはソース動画から追加フレームを取得する検索呼び出しや、推論に欠落または反事実的な視覚的証拠が必要な場合に仮想フレームを生成する生成呼び出しを発行できる。訓練データはGemini 2.5 Proの推論トレースから構築され、MINERVA、CausalVQA、Social Genomeの人間アノテーション付き思考連鎖に対してフィルタリングされており、最終的なSFTデータセットは3,373件のトレースを含み、そのうち47.67%が検索または生成されたフレームを含む。Qwen3-VL-8B-ThinkingからLoRAを用いて微調整されたモデルは、5つのビデオ推論ベンチマークで評価され、ベースモデルおよび同規模のオープンソースベースラインに対して一貫した改善を示している。
新規性
本研究の独自の貢献は、静的なフレーム入力や推論時のキーフレーム挿入のみに依存するのではなく、特殊な検索・生成ツール呼び出しを含むインターリーブされたテキスト-フレーム推論トレースに対する教師あり微調整を通じて能動的視覚知覚を実現する点にある。このフレームワークは、思考連鎖内で2つの形式の視覚的証拠取得—より高いサンプリングレートでの実フレームの検索と条件付き画像生成による仮想フレームの生成—を組み合わせており、反事実的ビデオ推論シナリオに特に関連性が高い。
成果
Act2Seeは報告された5つのベンチマーク全てでQwen3-VL-8B-Thinkingを上回り、Video-MMEで71.8から74.2、VideoEspressoで41.5から46.8、EgoNormiaで48.9から51.3、VCR-Benchで38.2から47.1、ViTIBで60.2から63.3に改善した。また、推論時のみのインターリーブ(ViTCoT)やRLベースのインターリーブベースライン(ReWatch-R1、FrameMind)に対する優位性も報告されており、アブレーション研究では検索と生成の両方が性能に寄与すること、および人間アノテーション付きCoTソースがVLM生成のものを大幅に上回ることが確認されている。
論文の注目点
- Act2Seeは、VLMが思考連鎖推論の中に検索または生成ツール呼び出しを挿入するよう訓練し、ビデオQA中の視覚的証拠の能動的取得を可能にする。検索はより高いサンプリングレートで動画を探索し、生成は条件付き画像生成により仮想フレームを生成する。
- SFTデータセットはGemini 2.5 Proのトレースから構築され、MINERVA、CausalVQA、Social Genomeの人間アノテーション付き推論データに対してBGE M3-Embedding類似度(80%以上)でフィルタリングされ、47.67%が検索または生成フレームを含む3,373件の高品質サンプルが得られた。
- 実験的に、本手法は5つのベンチマークでベースモデルを上回り、推論時のみ(ViTCoT)およびRLベース(ReWatch-R1、FrameMind)のビデオ-テキストインターリーブ手法に対しても優位性を示す一方、アブレーションにより検索と生成の組み合わせがいずれか単独よりも優れることが確認された。