YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal
Abstractの概要
本論文は、Diffusion Transformer(DiT)ベースの動画オブジェクト除去における高い推論コストの問題に取り組んでいる。従来手法では、編集が必要なのは小さなマスク領域のみであるにもかかわらず、全時空間トークンの処理が行われていた。提案されるYOSEフレームワークは2つのコンポーネントを導入する:マスク領域のトークンのみを選択し可変長バッチ処理をサポートする微分可能な演算子Batch Variable-length Indexing(BVI)と、学習可能な結合・スケーリング・バイアスパラメータを通じてDiTの自己注意においてマスクされていない領域の影響を近似するDiffusion Process Simulator(DiffSim)モジュールである。さらに、復元されたコンテンツと保持されたコンテンツの境界領域における平均と分散を整合させる融合戦略によりアーティファクトを低減する。YouTube-VOSおよびDAVISでの実験により、計算量がマスクサイズにほぼ線形にスケールし、約70%のケース(マスク比率が20%以下)で最大2.5倍の高速化を達成しつつ、フルトークンベースラインモデルに近い再構成品質を維持することが示された。
新規性
主な新規性は、バックボーンアーキテクチャを再設計することなく、トークン処理を明示的にマスク対応にするDiTベース動画オブジェクト除去のための軽量なプラグイン型ファインチューニングフレームワークである。特徴的な要素として、連続座標マッピング(grid_sample)による可変長エッセンシャルトークン選択のための微分可能なBVI演算子と、DiTブロックごとに学習可能な結合・スケーリング・バイアスパラメータを適用することでマスクされていない領域の拡散コンテキストをシミュレートするDiffSimモジュールがあり、マスクされたトークンのみがフルDiT処理を必要とする。
成果
YOSEはマスク比率5%で3.3倍、20%で2.5倍の高速化を達成し、ほとんどのトークンがマスクされる最悪ケースではベースラインに収束する。MiniMax Removerに適用した場合、品質をほぼ維持し、YouTube-VOSでの背景PSNRを30.33 dBから31.01 dBに改善し、DAVISではメトリクスの変化は無視できる程度であった。VACEに適用した場合、YouTube-VOSで背景PSNRを5.47 dB、DAVISで3.19 dB改善し、オブジェクト除去成功率を62.2%から97.8%に向上させた。
論文の注目点
- YOSEは、連続グリッドサンプリングを用いて勾配の流れを維持する微分可能な可変長インデキシングスキーム(BVI)により、マスク領域のトークンのみを選択・処理することで冗長なDiT計算を削減する。
- DiffSimは、DiTブロックごとの学習可能な結合・スケーリング・バイアスパラメータを通じてマスクされていない領域からのシミュレートされたキー・バリューコンテキストを提供し、動画全体にわたるフルトークン注意なしにマスクトークンの復元が意味的に一貫性を保つことを可能にする。
- 実験的に、本手法はマスク比率に依存した線形加速(マスク比率5%で最大3.3倍)を達成しつつ視覚品質をほぼ維持し、VACEにも汎化してマスク形状のハルシネーションアーティファクトを抑制し除去成功率を62.2%から97.8%に向上させる。