Structured Causal Video Reasoning via Multi-Objective Alignment
Abstractの概要
本論文は、動画推論のための「構造優先」フレームワークを提案しており、モデルがまず構造化イベントファクト(Structured Event Facts)——顕著なイベントとその因果関係を時系列順にまとめたコンパクトな記述——を生成し、その制約の下で推論を行う。本手法はCausalFact-60Kデータセットと、ファクト整合、フォーマットウォームスタート、思考ウォームスタート、強化学習ベースのポストトレーニングからなる4段階パイプラインで訓練される。構造的完全性、因果的忠実性、タスク精度、推論長さといった相反する強化学習目的を扱うため、著者らはパレートフロンティアガイド型アドバンテージバランシング(P-FAB)を導入し、報酬要素を個別の目的として扱い、Frank-Wolfe法による最小ノルム問題を解いて妥協的な更新方向を計算する。得られた40億パラメータモデルFactum-4Bは、時間的グラウンディングおよびより広範な動画理解ベンチマークにおいて、オープンソースおよびクローズドソースのベースラインと比較評価されている。
新規性
本論文の主な新規性は、構造化イベントファクトを中間表現として明示的に使用し、後続の因果推論を制約する点にあり、動画に対する制約のない連鎖思考(chain-of-thought)を置き換えるものである。また、標準化された報酬空間における最小ノルム問題を解くことでポストトレーニング中に競合する報酬信号を動的にバランスさせるパレートフロンティア型多目的RL手法P-FABを導入するとともに、CausalFact-60Kデータパイプラインおよびこの構造優先の振る舞いを安定化させるための4段階カリキュラムを提案している。
成果
アブレーション実験では、ファクトまたは思考段階を除去するとすべてのベンチマークで性能が低下し、RLポストトレーニングによりActivityNet-CaptionsのR1@0.3が61.5から69.8に向上した。Factum-4Bは、Charades-TimeLensで57.1/40.4/21.6、ActivityNet-Captionsで69.8/48.4/28.1(R1@0.3/0.5/0.7)を達成し、VideoMMEで64.7、NExT-GQAで73.6を記録し、40億パラメータ規模での時間的グラウンディングにおいてオープンソース最先端の結果を達成した。P-FABは標準GRPOを一貫して上回り、グループサイズが4から8に増加するにつれてActivityNet R1@0.3での差が1.2%から2.5%に拡大した。
論文の注目点
- 本手法は動画推論を構造化ファクト抽出段階と因果的に制約された思考段階に分離し、冗長で根拠の弱い推論の削減を目指している。アブレーションにより両段階が必要であることが確認され、いずれかを除去すると時間的グラウンディングおよび一般理解ベンチマーク全体で一貫した性能低下が生じる。
- 訓練はCausalFact-60Kと、完全な因果推論およびRL整合の前に必要な推論構造を安定化させる中間フォーマットウォームスタート(Stage 1.5)を含む4段階カリキュラムに依存しており、著者らはこの段階を省略するとモデルが不適切な構造を幻覚的に生成すると述べている。
- P-FAB多目的RLアルゴリズムは、標準化された目的別アドバンテージに対する最小ノルム問題を解くことで競合する報酬信号を動的にバランスさせ、グループサイズ8でより大きな改善を示しつつ標準GRPOを一貫して上回るが、著者らは限られた訓練データが一部の一般動画理解タスクの性能を制約していることを認めている。