論文の概要: Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility
- arxiv url: http://arxiv.org/abs/2509.24702v1
- Date: Mon, 29 Sep 2025 12:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.977397
- Title: Enhancing Physical Plausibility in Video Generation by Reasoning the Implausibility
- Title(参考訳): 映像生成における物理プラウザビリティの強化
- Authors: Yutong Hao, Chen Chen, Ajmal Saeed Mian, Chang Xu, Daochang Liu,
- Abstract要約: 拡散モデルはリアルなビデオを生成することができるが、既存の方法は大規模テキストビデオデータセットから暗黙的に物理的推論を学ぶことに依存している。
本研究では,推論時の身体的可視性を改善するためのトレーニングフリーフレームワークを提案する。
- 参考スコア(独自算出の注目度): 37.011366226968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models can generate realistic videos, but existing methods rely on implicitly learning physical reasoning from large-scale text-video datasets, which is costly, difficult to scale, and still prone to producing implausible motions that violate fundamental physical laws. We introduce a training-free framework that improves physical plausibility at inference time by explicitly reasoning about implausibility and guiding the generation away from it. Specifically, we employ a lightweight physics-aware reasoning pipeline to construct counterfactual prompts that deliberately encode physics-violating behaviors. Then, we propose a novel Synchronized Decoupled Guidance (SDG) strategy, which leverages these prompts through synchronized directional normalization to counteract lagged suppression and trajectory-decoupled denoising to mitigate cumulative trajectory bias, ensuring that implausible content is suppressed immediately and consistently throughout denoising. Experiments across different physical domains show that our approach substantially enhances physical fidelity while maintaining photorealism, despite requiring no additional training. Ablation studies confirm the complementary effectiveness of both the physics-aware reasoning component and SDG. In particular, the aforementioned two designs of SDG are also individually validated to contribute critically to the suppression of implausible content and the overall gains in physical plausibility. This establishes a new and plug-and-play physics-aware paradigm for video generation.
- Abstract(参考訳): 拡散モデルはリアルなビデオを生成することができるが、既存の方法は、大規模テキストビデオデータセットから暗黙的に物理的推論を学ぶことに依存している。
本研究では,推論時の身体的可視性を改善するためのトレーニングフリーフレームワークを提案する。
具体的には、物理を意識した推論パイプラインを用いて、物理学に違反する振る舞いを意図的に符号化する反実的なプロンプトを構築する。
そこで,本研究では,これらのプロンプトを協調的方向正規化を通じて活用し,ラグ抑制とトラジェクトリデノナイジングに対処し,累積軌道偏差を緩和し,即時かつ連続的に内容が抑制されることを確実にする,シンクロナイズドデカウンタンス(SDG)戦略を提案する。
異なる領域にわたる実験により、我々のアプローチは、追加の訓練を必要とせず、フォトリアリズムを維持しながら、物理的忠実性を大幅に向上することが示された。
アブレーション研究により、物理認識推論成分とSDGの相補的効果が確認された。
特に、前述のSDGの2つの設計も個別に検証され、不明瞭な内容の抑制と身体的妥当性の全体的な向上に決定的に寄与する。
これにより、ビデオ生成のための新しい、プラグアンドプレイの物理認識パラダイムが確立される。
関連論文リスト
- Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM [17.554471769834453]
一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-05-22T09:40:34Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control [16.319698848279966]
物理に基づくルックアヘッド制御のためのガイド付き拡散フレームワークであるDiffuse-CLoCを提案する。
直感的で、ステアブルで、物理的にリアルなモーション生成を可能にする。
論文 参考訳(メタデータ) (2025-03-14T18:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。