論文の概要: Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
- arxiv url: http://arxiv.org/abs/2512.11792v1
- Date: Fri, 12 Dec 2025 18:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.881068
- Title: Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
- Title(参考訳): 追跡からの構造:ビデオ生成のための蒸留構造保存運動
- Authors: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu,
- Abstract要約: 自己回帰動画追跡モデル(SAM2)から双方向ビデオ拡散モデル(CogVideoX)へ構造保存動作先行情報を抽出するアルゴリズムを提案する。
VBenchと人間の研究ではSAM2VideoXが一貫した利益をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 76.04880323498598
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .
- Abstract(参考訳): 現実とは、厳格な制約と変形可能な構造の間のダンスである。
ビデオモデルの場合、それは構造だけでなく忠実さを保った動きを生み出すことを意味する。
拡散モデルが進歩しているにもかかわらず、現実的な構造保存運動を作り出すことは、特に人間や動物のような明瞭で変形可能な物体にとって、依然として困難である。
これまでのところ、トレーニングデータのスケーリングだけでは、物理的に不可解なトランジションを解決できなかった。
既存のアプローチは、外部不完全モデルを用いて抽出された光学フローや骨格のようなノイズの多い動き表現による条件付けに依存している。
これらの課題に対処するため,自動回帰動画追跡モデル(SAM2)から双方向ビデオ拡散モデル(CogVideoX)へ構造保存動作先行情報を抽出するアルゴリズムを導入する。
本手法では,(1) SAM2のような再帰モデルからグローバルな構造保存動作先を抽出する双方向機能融合モジュール,(2) 局所的特徴の協調動作を調整した局所的グラムフロー損失の2つのイノベーションを含むSAM2VideoXを訓練する。
VBenchと人間の研究での実験では、SAM2VideoXは以前の基準よりも一貫した利得(VBenchは+2.60 %、FVDは21-22 %、人間の嗜好は71.4 %)を達成している。
具体的には、VBenchでは、95.51\%を達成し、REPA(92.91\%)を2.60\%、FVDを360.57、21.20\%、22.46\%に下げる。
プロジェクトのWebサイトはhttps://sam2videox.github.io/にある。
関連論文リスト
- Masked Modeling for Human Motion Recovery Under Occlusions [21.05382087890133]
MoRoは、ビデオコンディショニングタスクとしてモーション再構成を定式化する、エンドツーエンドの生成フレームワークである。
MoRoは、1つのH200 GPU上で70FPSのリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2026-01-22T16:22:20Z) - MAD: Motion Appearance Decoupling for efficient Driving World Models [94.40548866741791]
本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
論文 参考訳(メタデータ) (2026-01-14T12:52:23Z) - Real-Time Motion-Controllable Autoregressive Video Diffusion [79.32730467857535]
本稿では,AR-Dragを提案する。このAR-Dragは,多様なモーション制御を備えたリアルタイム画像・ビデオ生成のための,RLで拡張された最初の数ステップのARビデオ拡散モデルである。
まず,基本動作制御をサポートするためのベースI2Vモデルを微調整し,さらに軌道ベース報酬モデルによる強化により改良する。
本設計では、自己学習機構を通じてマルコフ特性を保存し、ステップを選択的に分解することで訓練を加速する。
論文 参考訳(メタデータ) (2025-10-09T12:17:11Z) - PUSA V1.0: Surpassing Wan-I2V with $500 Training Cost by Vectorized Timestep Adaptation [18.2095668161519]
Pusaは、一貫したビデオ拡散フレームワーク内で微細な時間的制御を可能にする、画期的なパラダイムである。
We set a new standard for image-to-video (I2V) generation, to achieve a VBench-I2V total score 87.32%。
この研究は、次世代のビデオ合成のためのスケーラブルで効率的で多用途なパラダイムを確立する。
論文 参考訳(メタデータ) (2025-07-22T00:09:37Z) - Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。