論文の概要: PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM
- arxiv url: http://arxiv.org/abs/2505.16456v2
- Date: Thu, 25 Sep 2025 22:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.371892
- Title: PhyMAGIC: Physical Motion-Aware Generative Inference with Confidence-guided LLM
- Title(参考訳): Phymagic: 信頼誘導LDMを用いた物理運動認識生成推論
- Authors: Siwei Meng, Yawei Luo, Ping Liu,
- Abstract要約: 一つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像間拡散モデル、LDMによる信頼誘導推論、微分可能な物理シミュレータを統合する。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理対応のベースラインより優れていることが示された。
- 参考スコア(独自算出の注目度): 17.554471769834453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 3D content generation have amplified demand for dynamic models that are both visually realistic and physically consistent. However, state-of-the-art video diffusion models frequently produce implausible results such as momentum violations and object interpenetrations. Existing physics-aware approaches often rely on task-specific fine-tuning or supervised data, which limits their scalability and applicability. To address the challenge, we present PhyMAGIC, a training-free framework that generates physically consistent motion from a single image. PhyMAGIC integrates a pre-trained image-to-video diffusion model, confidence-guided reasoning via LLMs, and a differentiable physics simulator to produce 3D assets ready for downstream physical simulation without fine-tuning or manual supervision. By iteratively refining motion prompts using LLM-derived confidence scores and leveraging simulation feedback, PhyMAGIC steers generation toward physically consistent dynamics. Comprehensive experiments demonstrate that PhyMAGIC outperforms state-of-the-art video generators and physics-aware baselines, enhancing physical property inference and motion-text alignment while maintaining visual fidelity.
- Abstract(参考訳): 近年の3Dコンテンツ生成の進歩は、視覚的に現実的かつ物理的に整合性のある動的モデルへの需要を増幅している。
しかし、最先端のビデオ拡散モデルでは、運動量違反や物体の相互接続といった不確実な結果がしばしば発生する。
既存の物理学的アプローチは、しばしばタスク固有の微調整や教師付きデータに依存し、スケーラビリティと適用性を制限する。
この課題に対処するために,1つの画像から物理的に一貫した動きを生成するトレーニング不要のフレームワークであるPhyMAGICを提案する。
PhyMAGICは、事前訓練された画像とビデオの拡散モデル、LSMによる信頼誘導推論、および微分可能な物理シミュレータを統合し、微調整や手動の監督なしに下流の物理シミュレーションに適した3Dアセットを生成する。
LLM由来の信頼スコアを用いて動作プロンプトを反復的に精製し、シミュレーションフィードバックを活用することにより、Phymagic steers生成を物理的に一貫したダイナミクスへ向ける。
総合的な実験により、PhyMAGICは最先端のビデオジェネレータや物理認識ベースラインより優れており、視覚的忠実さを維持しつつ、物理的特性推論と動きテキストアライメントを向上させることが示されている。
関連論文リスト
- Diffusion-based 3D Hand Motion Recovery with Intuitive Physics [29.784542628690794]
画像に基づく再構成を向上する新しい3Dハンドモーションリカバリフレームワークを提案する。
本モデルでは,初期値に条件付された改良された動き推定値の分布を抽出し,改良されたシーケンスを生成する。
我々は、キー動作状態とその関連する動作制約を含む手動物体相互作用における貴重な直感的な物理知識を同定する。
論文 参考訳(メタデータ) (2025-08-03T16:44:24Z) - Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z) - Motion aware video generative model [12.5036873986483]
拡散に基づくビデオ生成は、視覚内容とセマンティックコヒーレンスに前例のない品質をもたらす。
現在のアプローチは、基礎となる運動物理学を明示的にモデル化することなく、統計的学習に依存している。
本稿では、物理インフォームド周波数領域を用いて、生成したビデオの物理的妥当性を高める手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。
我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文 参考訳(メタデータ) (2024-11-26T07:59:11Z) - PhysFlow: Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.306758077479472]
PhysFlowは、マルチモーダル基礎モデルとビデオ拡散を利用して、強化された4次元ダイナミックシーンシミュレーションを実現する新しいアプローチである。
この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-11-21T18:55:23Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。