論文の概要: Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
- arxiv url: http://arxiv.org/abs/2512.11792v1
- Date: Fri, 12 Dec 2025 18:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.881068
- Title: Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
- Title(参考訳): 追跡からの構造:ビデオ生成のための蒸留構造保存運動
- Authors: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu,
- Abstract要約: 自己回帰動画追跡モデル(SAM2)から双方向ビデオ拡散モデル(CogVideoX)へ構造保存動作先行情報を抽出するアルゴリズムを提案する。
VBenchと人間の研究ではSAM2VideoXが一貫した利益をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 76.04880323498598
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .
- Abstract(参考訳): 現実とは、厳格な制約と変形可能な構造の間のダンスである。
ビデオモデルの場合、それは構造だけでなく忠実さを保った動きを生み出すことを意味する。
拡散モデルが進歩しているにもかかわらず、現実的な構造保存運動を作り出すことは、特に人間や動物のような明瞭で変形可能な物体にとって、依然として困難である。
これまでのところ、トレーニングデータのスケーリングだけでは、物理的に不可解なトランジションを解決できなかった。
既存のアプローチは、外部不完全モデルを用いて抽出された光学フローや骨格のようなノイズの多い動き表現による条件付けに依存している。
これらの課題に対処するため,自動回帰動画追跡モデル(SAM2)から双方向ビデオ拡散モデル(CogVideoX)へ構造保存動作先行情報を抽出するアルゴリズムを導入する。
本手法では,(1) SAM2のような再帰モデルからグローバルな構造保存動作先を抽出する双方向機能融合モジュール,(2) 局所的特徴の協調動作を調整した局所的グラムフロー損失の2つのイノベーションを含むSAM2VideoXを訓練する。
VBenchと人間の研究での実験では、SAM2VideoXは以前の基準よりも一貫した利得(VBenchは+2.60 %、FVDは21-22 %、人間の嗜好は71.4 %)を達成している。
具体的には、VBenchでは、95.51\%を達成し、REPA(92.91\%)を2.60\%、FVDを360.57、21.20\%、22.46\%に下げる。
プロジェクトのWebサイトはhttps://sam2videox.github.io/にある。
関連論文リスト
- Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。