Fugu-MT 論文翻訳(概要): MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM

論文の概要: MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM

arxiv url: http://arxiv.org/abs/2505.16456v1
Date: Thu, 22 May 2025 09:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.199739
Title: MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM
Title（参考訳）: MAGIC:信頼誘導LDMによる動き認識生成推論
Authors: Siwei Meng, Yawei Luo, Ping Liu,
Abstract要約: MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
参考スコア（独自算出の注目度）: 14.522189177415724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in static 3D generation have intensified the demand for physically consistent dynamic 3D content. However, existing video generation models, including diffusion-based methods, often prioritize visual realism while neglecting physical plausibility, resulting in implausible object dynamics. Prior approaches for physics-aware dynamic generation typically rely on large-scale annotated datasets or extensive model fine-tuning, which imposes significant computational and data collection burdens and limits scalability across scenarios. To address these challenges, we present MAGIC, a training-free framework for single-image physical property inference and dynamic generation, integrating pretrained image-to-video diffusion models with iterative LLM-based reasoning. Our framework generates motion-rich videos from a static image and closes the visual-to-physical gap through a confidence-driven LLM feedback loop that adaptively steers the diffusion model toward physics-relevant motion. To translate visual dynamics into controllable physical behavior, we further introduce a differentiable MPM simulator operating directly on 3D Gaussians reconstructed from the single image, enabling physically grounded, simulation-ready outputs without any supervision or model tuning. Experiments show that MAGIC outperforms existing physics-aware generative methods in inference accuracy and achieves greater temporal coherence than state-of-the-art video diffusion models.
Abstract（参考訳）: 静的な3D生成の最近の進歩は、物理的に一貫した動的3Dコンテンツの需要を増大させている。しかし、拡散に基づく手法を含む既存のビデオ生成モデルは、物理的妥当性を無視しながら視覚的リアリズムを優先し、不確実なオブジェクトのダイナミクスをもたらすことが多い。物理学を意識した動的生成の以前のアプローチは、一般的に大規模アノテートデータセットや広範囲なモデル微調整に依存しており、計算とデータ収集のかなりの負担とシナリオ間のスケーラビリティの制限を課している。これらの課題に対処するため、単イメージの物理的特性推論と動的生成のためのトレーニングフリーフレームワークであるMAGICを紹介し、事前学習された画像間拡散モデルと反復LDMに基づく推論を統合する。本フレームワークは,静止画像から動き豊かな映像を生成し,物理関連運動に対する拡散モデルを適応的に制御する信頼駆動型LDMフィードバックループにより,視覚と物理のギャップを埋める。さらに,視覚力学を制御可能な物理的動作に変換するために,単一画像から再構成した3次元ガウシアン上で直接動作可能なMPMシミュレータを導入する。実験により、MAGICは既存の物理認識生成法よりも精度が高く、最先端のビデオ拡散モデルよりも時間的コヒーレンスが高いことがわかった。

関連論文リスト

Diffusion-based 3D Hand Motion Recovery with Intuitive Physics [29.784542628690794]
画像に基づく再構成を向上する新しい3Dハンドモーションリカバリフレームワークを提案する。本モデルでは,初期値に条件付された改良された動き推定値の分布を抽出し,改良されたシーケンスを生成する。我々は、キー動作状態とその関連する動作制約を含む手動物体相互作用における貴重な直感的な物理知識を同定する。
論文参考訳（メタデータ） (2025-08-03T16:44:24Z)
Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文参考訳（メタデータ） (2025-07-09T13:28:42Z)
DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-03T05:04:29Z)
Motion aware video generative model [12.5036873986483]
拡散に基づくビデオ生成は、視覚内容とセマンティックコヒーレンスに前例のない品質をもたらす。現在のアプローチは、基礎となる運動物理学を明示的にモデル化することなく、統計的学習に依存している。本稿では、物理インフォームド周波数領域を用いて、生成したビデオの物理的妥当性を高める手法を提案する。
論文参考訳（メタデータ） (2025-06-02T20:42:54Z)
VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。 VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-30T09:03:09Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
PhysMotion: Physics-Grounded Dynamics From a Single Image [24.096925413047217]
本稿では、物理シミュレーションを利用した新しいフレームワークであるPhysMotionを紹介し、一つの画像と入力条件から生成された中間3次元表現をガイドする。我々のアプローチは、従来のデータ駆動生成モデルの限界に対処し、より一貫した物理的に妥当な動きをもたらす。
論文参考訳（メタデータ） (2024-11-26T07:59:11Z)
PhysFlow: Unleashing the Potential of Multi-modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation [9.306758077479472]
PhysFlowは、マルチモーダル基礎モデルとビデオ拡散を利用して、強化された4次元ダイナミックシーンシミュレーションを実現する新しいアプローチである。この統合フレームワークは、現実世界のシナリオにおける動的相互作用の正確な予測と現実的なシミュレーションを可能にする。
論文参考訳（メタデータ） (2024-11-21T18:55:23Z)
DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文参考訳（メタデータ） (2024-06-03T16:05:25Z)
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。本手法はセンサシミュレーションにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-11-03T17:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。