FuguReport

An Attribute-Based Measure of Video Complexity

著者 Aditya Sarkar, Yi Li, Zihao Wang, Jiacheng Cheng, Sai Vidyaranya Nuthalapati, Aashu Singh, Shlok Kumar Mishra, David Jacobs, Nuno Vasconcelos
所属 Meta / University of Maryland, College Park / Yale University / University of California, San Diego
カテゴリ Evaluation / Model Evaluation / Measuring video LLM failure probability, Method / Complexity Metrics / Nonparametric attribute-based video complexity, Application / Video Retrieval / Video dataset attribute analysis
ライセンス CC BY 4.0

Abstractの概要

本論文は、動画LLMに向けた動画と質問のペアの複雑さを推定するノンパラメトリックなフレームワークであるVideoABCを提案する。ここでは、複雑さはモデルが失敗する確率として定義される。この手法は、イベントの場所、非イベントの割合、シーンの複雑さ、イベントの速度といった解釈可能な動画属性から構築された小さな属性空間で各ペアを表現し、その空間の量子化された領域から複雑さを推定する。分布内および分布外の両方のケースに対応するため、このフレームワークは、実際のベンチマーク動画から学習したk-means量子化器と、制御された属性で生成された合成動画にサポートされるユニバーサル格子量子化器を組み合わせている。実験では、複数の動画LLMにおいてVideoABCを評価し、キャリブレーション指向の指標を用いて、ジャッジベースおよびMLPベースのベースラインと比較している。

新規性

本研究の特徴は、全体的なパラメトリックスコアラーや外部のLLMジャッジに依存するのではなく、失敗確率としての動画の複雑さを、属性ベースかつノンパラメトリックに明示的に定義している点である。また、分布内のk-meansセルとユニバーサル格子量子化器を組み合わせたハイブリッド量子化戦略や、実際の参照データが限られている場合に属性空間を埋めるための、精神物理学に着想を得た合成動画生成手順を導入している。

成果

6つのターゲット動画LLMにおいて、VideoABCは比較手法の中で最も低い予測キャリブレーション誤差を達成している(例えば、Qwen-3.5-VL 9Bではジャッジの0.171に対して0.087、LLaVA-OV 7Bではジャッジの0.148に対して0.058)。また、本手法は良好な効率と性能のトレードオフを示しており、推論レイテンシは226ミリ秒と、72Bジャッジモデルの1802ミリ秒よりもはるかに低く、それでいてより良いキャリブレーションをもたらす。さらにアブレーションにより、ユニバーサル量子化器が分布外の汎化に、分布内量子化器が分布内の性能に寄与し、組み合わせた量子化器が最良の実用的なトレードオフをもたらすことが示された。

論文の注目点

  1. VideoABCは、パラメトリックなジャッジモデルからではなく、解釈可能な属性と量子化された属性セルの期待失敗率から動画と質問の複雑さを推定する。
  2. 本フレームワークは、実データのk-means量子化と合成動画にサポートされるユニバーサル格子量子化器を組み合わせ、分布内の精度と分布外の網羅性の両方に対処している。
  3. 経験的に、VideoABCは複数の動画LLMにおいて、ジャッジ、直接属性、MLPの各ベースラインよりも優れたキャリブレーションを示しつつ、比較的低い推論レイテンシを維持している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。