論文の概要: MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM
- arxiv url: http://arxiv.org/abs/2505.16456v1
- Date: Thu, 22 May 2025 09:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.199739
- Title: MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM
- Title(参考訳): MAGIC:信頼誘導LDMによる動き認識生成推論
- Authors: Siwei Meng, Yawei Luo, Ping Liu,
- Abstract要約: MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。
本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。
実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
- 参考スコア(独自算出の注目度): 14.522189177415724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in static 3D generation have intensified the demand for physically consistent dynamic 3D content. However, existing video generation models, including diffusion-based methods, often prioritize visual realism while neglecting physical plausibility, resulting in implausible object dynamics. Prior approaches for physics-aware dynamic generation typically rely on large-scale annotated datasets or extensive model fine-tuning, which imposes significant computational and data collection burdens and limits scalability across scenarios. To address these challenges, we present MAGIC, a training-free framework for single-image physical property inference and dynamic generation, integrating pretrained image-to-video diffusion models with iterative LLM-based reasoning. Our framework generates motion-rich videos from a static image and closes the visual-to-physical gap through a confidence-driven LLM feedback loop that adaptively steers the diffusion model toward physics-relevant motion. To translate visual dynamics into controllable physical behavior, we further introduce a differentiable MPM simulator operating directly on 3D Gaussians reconstructed from the single image, enabling physically grounded, simulation-ready outputs without any supervision or model tuning. Experiments show that MAGIC outperforms existing physics-aware generative methods in inference accuracy and achieves greater temporal coherence than state-of-the-art video diffusion models.
- Abstract(参考訳): 静的な3D生成の最近の進歩は、物理的に一貫した動的3Dコンテンツの需要を増大させている。
しかし、拡散に基づく手法を含む既存のビデオ生成モデルは、物理的妥当性を無視しながら視覚的リアリズムを優先し、不確実なオブジェクトのダイナミクスをもたらすことが多い。
物理学を意識した動的生成の以前のアプローチは、一般的に大規模アノテートデータセットや広範囲なモデル微調整に依存しており、計算とデータ収集のかなりの負担とシナリオ間のスケーラビリティの制限を課している。
これらの課題に対処するため、単イメージの物理的特性推論と動的生成のためのトレーニングフリーフレームワークであるMAGICを紹介し、事前学習された画像間拡散モデルと反復LDMに基づく推論を統合する。
本フレームワークは,静止画像から動き豊かな映像を生成し,物理関連運動に対する拡散モデルを適応的に制御する信頼駆動型LDMフィードバックループにより,視覚と物理のギャップを埋める。
さらに,視覚力学を制御可能な物理的動作に変換するために,単一画像から再構成した3次元ガウシアン上で直接動作可能なMPMシミュレータを導入する。
実験により、MAGICは既存の物理認識生成法よりも精度が高く、最先端のビデオ拡散モデルよりも時間的コヒーレンスが高いことがわかった。
関連論文リスト
- VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - PhysFlow: Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.306758077479472]
PhysFlowは、マルチモーダル基礎モデルとビデオ拡散を利用して、強化された4次元ダイナミックシーンシミュレーションを実現する新しいアプローチである。
この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-21T18:55:23Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。