FuguReport

Video Active Perception: Effective Inference-Time Long-Form Video Understanding with Vision-Language Models

著者 Martin Q. Ma, Willis Guo, Aditya Agrawal, Ankit Gupta, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency
所属 Carnegie Mellon University / Massachusetts Institute of Technology
カテゴリ Method / Active Perception / Inference optimization for video VLM, Application / Video Understanding / Long-form video QA with VLMs, Evaluation / Model Efficiency / Frame efficiency improvement analysis
ライセンス CC BY 4.0

Abstractの概要

本論文は、視覚言語モデルを用いた長時間動画質問応答のための学習不要な推論時手法であるVideo Active Perception(VAP)を提案している。VAPは軽量なテキスト条件付き動画生成モデル(CogVideoX)を使用し、一様にサンプリングした少数のフレームと質問・回答候補から予想される潜在的な動画ダイナミクスを生成する。その後、生成された潜在表現と全実フレームからエンコードされた潜在表現を比較し、最も類似度が低い(最も「意外性のある」)フレームを下流のVLM推論用に選択する。EgoSchema、NExT-QA、ActivityNet-QA、IntentQA、CLEVRER、VideoMME、MLVUベンチマークで評価され、一様サンプリングや既存のフレーム選択ベースラインに対して精度とフレーム効率の両方で改善を示している。

新規性

主要な貢献は、推論時の動画フレーム選択を能動知覚として定式化し、事前学習済み動画生成モデルを事前分布として利用し、潜在空間において実フレームが生成された予測からどの程度逸脱するかに基づいてキーフレームを選択する点である。既存のフレーム選択手法とは異なり、VAPは学習不要であり、キャプション生成モデルを必要とせず、反復的なエージェントループや複雑なメモリ構造を用いることなく単一ラウンドで選択を行う。

成果

VAPは5つの動画QAベンチマークでゼロショットの最先端結果を達成した:EgoSchema 68.1%、NExT-QA 81.4%、ActivityNet-QA 64.6%、IntentQA 72.2%、CLEVRER 40.5%。標準GPT-4oに対して最大5.6倍のフレーム効率改善(EgoSchemaで180フレームに対し32フレーム)を同等以上の精度で実現し、精度を揃えた条件ではGPT-4o miniよりも低レイテンシを示した。さらに、超長時間動画ベンチマーク(VideoMMEおよびMLVU)での一貫した改善や、時間的・因果的・説明的・反事実的推論タスクでの強い性能が確認された。

論文の注目点

  1. VAPは、全実フレームと生成フレーム(初期フレーム・質問・回答で条件付けされたCogVideoXにより生成)を潜在空間にエンコードし、対応する潜在表現間のコサイン類似度を計算して、最も類似度の低い実フレームをVLM推論用に選択する。
  2. 本手法は学習不要でVLMに依存せず、VideoAgentやVideoTreeなどの既存手法で使用されるキャプション生成モデル、反復的な検索ループ、複雑な外部メモリ構造を必要とせずに単一の選択ラウンドで動作する。
  3. 実験的に、VAPは複数のデータセットにわたりベンチマーク精度とフレーム効率の両方を改善し、推論重視タスクで特に大きな効果を示した(例:CLEVRERの説明的質問でVideoTreeに対し154%の相対改善)ほか、超長時間動画ベンチマークでも一貫した改善を達成した。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。