Tempered Self-Similarity Alignment for Physically Plausible Video Generation
Abstractの概要
本論文は、事前学習済みの視覚基盤モデルからビデオ拡散モデルへ時空間的な関係構造を転移させることで、生成ビデオの物理的な妥当性を向上させるTempered Self-Similarity Alignment (TSA) を提案している。この手法は、生の時空間自己類似性テンソルを整列させるのではなく、それらを温度スケールで調整された対応確率分布に変換し、KL情報量に基づく目的関数を用いて拡散モデルを基盤モデルにアライメントする。著者らはまた、静的な背景領域ではなく物理的に意味のある動きに監督シグナルを集中させるため、アライメントを動きの顕著な動的領域に限定するマスク付きの派生手法(M-TSA)も導入している。VideoPhy、VideoPhy2、およびVBenchでの実験により、このアライメントが全体的なビデオ品質を概ね維持しながら、物理的な一貫性を向上させることが示されている。
新規性
生の自己類似性テンソルを直接照合するのではなく、時空間的自己類似性を確率的な時空間対応分布として再解釈し、アライメントの前に温度スケーリングによって先鋭化するという点が特徴的なアイデアである。また、物理的な相互作用が発生する動的領域に関係性知識の転移を集中させるために、動きに焦点を当てたマスキングを追加している点も新しい。
成果
VideoPhyにおいて、M-TSAはCogVideoX-2B*の全体的な物理的常識(Physical Commonsense)スコアを25.3から30.8に向上させ(TSAは29.1に到達)、最も改善が大きかったカテゴリは固体間相互作用であり、M-TSAにより15.4から21.0へと上昇した。VideoPhy2では、JointスコアがCogVideoX-2B*の22.9からM-TSAで24.4に増加し、VBenchではTotalスコアが81.0から81.2へとわずかな増加を示しており、この手法が一般的なビデオ品質を概ね損なうことなく物理的な妥当性を改善することを示唆している。
論文の注目点
- TSAは、自己類似性から導出された温度スケール調整済みの時空間対応分布をアライメントし、生の時空間自己類似性(STSS)の直接的なアライメントよりも的確に的を絞った動きの監督シグナルを提供する。
- マスク付きバージョンのM-TSAは、時間差分に基づく動きの顕著性を用いて動的領域を選択し、静的領域をアライメント損失プロセスから除外する。
- 報告されたさまざまなベンチマークにおいて、同等の全体的なVBench品質を維持しつつ、CogVideoX-2Bベースラインおよび従来のアライメント手法を上回る物理的妥当性指標の向上を達成している。