論文の概要: DiReCT: Disentangled Regularization of Contrastive Trajectories for Physics-Refined Video Generation
- arxiv url: http://arxiv.org/abs/2603.25931v1
- Date: Thu, 26 Mar 2026 21:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.287987
- Title: DiReCT: Disentangled Regularization of Contrastive Trajectories for Physics-Refined Video Generation
- Title(参考訳): DiReCT:物理精細ビデオ生成のためのコントラスト軌道の直交正規化
- Authors: Abolfazl Meyarian, Amin Karimi Monsefi, Rajiv Ramnath, Ser-Nam Lim,
- Abstract要約: フローマッチングビデオジェネレータは、時間的にコヒーレントで高忠実な出力を生成するが、日常的に基礎物理学に反する。
テキスト条件付きビデオ設定における基本的な障害は、意味物理学の絡み合いである。
我々は、この勾配の矛盾を形式化し、コントラスト学習がトレーニングに支障を与える場合と、トレーニングに支障をきたす場合の正確なアライメント条件を導出する。
- 参考スコア(独自算出の注目度): 40.41107421160271
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Flow-matching video generators produce temporally coherent, high-fidelity outputs yet routinely violate elementary physics because their reconstruction objectives penalize per-frame deviations without distinguishing physically consistent dynamics from impossible ones. Contrastive flow matching offers a principled remedy by pushing apart velocity-field trajectories of differing conditions, but we identify a fundamental obstacle in the text-conditioned video setting: semantic-physics entanglement. Because natural-language prompts couple scene content with physical behavior, naive negative sampling draws conditions whose velocity fields largely overlap with the positive sample's, causing the contrastive gradient to directly oppose the flow-matching objective. We formalize this gradient conflict, deriving a precise alignment condition that reveals when contrastive learning helps versus harms training. Guided by this analysis, we introduce DiReCT (Disentangled Regularization of Contrastive Trajectories), a lightweight post-training framework that decomposes the contrastive signal into two complementary scales: a macro-contrastive term that draws partition-exclusive negatives from semantically distant regions for interference-free global trajectory separation, and a micro-contrastive term that constructs hard negatives sharing full scene semantics with the positive sample but differing along a single, LLM-perturbed axis of physical behavior; spanning kinematics, forces, materials, interactions, and magnitudes. A velocity-space distributional regularizer helps to prevent catastrophic forgetting of pretrained visual quality. When applied to Wan 2.1-1.3B, our method improves the physical commonsense score on VideoPhy by 16.7% and 11.3% compared to the baseline and SFT, respectively, without increasing training time.
- Abstract(参考訳): フローマッチングビデオジェネレータは、物理的に一貫したダイナミクスを不可能なものと区別することなく、フレームごとの偏差をペナルティ化するため、時間的に一貫性のある高忠実な出力を生成する。
コントラストフローマッチングは、異なる条件の速度場軌跡を分割することで、基本的な対策を提供するが、テキスト条件付きビデオ設定における基本的な障害は、意味-物理の絡み合いである。
自然言語は物理的挙動を伴ってシーン内容のカップル化を促すため、自然な負のサンプリングは、速度場が正のサンプルと大きく重なる条件を導き、対照的な勾配が直接フローマッチングの目的に反する原因となる。
我々は、この勾配の矛盾を形式化し、コントラスト学習がトレーニングに支障を与える場合と、トレーニングに支障をきたす場合の正確なアライメント条件を導出する。
この分析で導かれたDiReCT(Disentangled Regularization of Contrastive Trajectories)は、対照的な信号を2つの相補的な尺度に分解する軽量なポストトレーニングフレームワークである。
速度空間分布正規化器は、予め訓練された視覚品質の破滅的な忘れ込みを防止するのに役立つ。
Wan 2.1-1.3Bに適用した場合、トレーニング時間を増やすことなく、ベースラインとSFTと比較して、ビデオPhyの物理コモンセンススコアを16.7%、11.3%改善する。
関連論文リスト
- MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation [60.48914865049489]
MotionCFGは、ターゲットコンセプトとノイズブレーブの概念を対比することにより、モーションダイナミクスを強化するフレームワークである。
明示的な否定とは異なり、このアプローチはグローバルな意味的アイデンティティをシフトすることなく暗黙的な否定的なガイダンスを促進する。
MotionCFGは、最先端のT2Vフレームワーク間のモーションダイナミクスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-14T18:39:37Z) - On Exact Editing of Flow-Based Diffusion Models [97.0633397035926]
本研究では,フローベース編集を既知ソースによって駆動される分散変換問題として再構成する条件付き速度補正(CVC)を提案する。
CVCは、双対パースペクティブな速度変換機構を導入することにより、分配間変換における速度の役割を再考する。
我々は,CVCが優れた忠実度,セマンティックアライメント,多種多様なタスクに対する信頼性の高い編集動作を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-12-30T06:29:20Z) - Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility [37.011366226968]
拡散モデルはリアルなビデオを生成することができるが、既存の方法は大規模テキストビデオデータセットから暗黙的に物理的推論を学ぶことに依存している。
本研究では,推論時の身体的可視性を改善するためのトレーニングフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T12:32:54Z) - Curricular Contrastive Regularization for Physics-aware Single Image
Dehazing [56.392696439577165]
本研究では, コンセンサス空間を対象とし, 非コンセンサス空間ではなく, 新規なコントラスト正規化を提案する。
我々の負は,1)ハズーな画像から,2)既存の手法による対応する復元から,より低い制約を提供することができる。
このユニットは、直交的なコントラスト正規化とともに、C2PNetというデハジングネットワークを確立します。
論文 参考訳(メタデータ) (2023-03-24T18:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。