Fugu-MT 論文翻訳(概要): Towards Physically Plausible Video Generation via VLM Planning

論文の概要: Towards Physically Plausible Video Generation via VLM Planning

arxiv url: http://arxiv.org/abs/2503.23368v2
Date: Wed, 02 Apr 2025 13:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 13:32:13.801235
Title: Towards Physically Plausible Video Generation via VLM Planning
Title（参考訳）: VLM計画による物理可塑性映像生成に向けて
Authors: Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia,
Abstract要約: 近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。 VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。本稿では,物理を明示的に組み込んだ新しい2段階画像・ビデオ生成フレームワークを提案する。
参考スコア（独自算出の注目度）: 88.51778468222766
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video diffusion models (VDMs) have advanced significantly in recent years, enabling the generation of highly realistic videos and drawing the attention of the community in their potential as world simulators. However, despite their capabilities, VDMs often fail to produce physically plausible videos due to an inherent lack of understanding of physics, resulting in incorrect dynamics and event sequences. To address this limitation, we propose a novel two-stage image-to-video generation framework that explicitly incorporates physics. In the first stage, we employ a Vision Language Model (VLM) as a coarse-grained motion planner, integrating chain-of-thought and physics-aware reasoning to predict a rough motion trajectories/changes that approximate real-world physical dynamics while ensuring the inter-frame consistency. In the second stage, we use the predicted motion trajectories/changes to guide the video generation of a VDM. As the predicted motion trajectories/changes are rough, noise is added during inference to provide freedom to the VDM in generating motion with more fine details. Extensive experimental results demonstrate that our framework can produce physically plausible motion, and comparative evaluations highlight the notable superiority of our approach over existing methods. More video results are available on our Project Page: https://madaoer.github.io/projects/physically_plausible_video_generation.
Abstract（参考訳）: 近年,映像拡散モデル (VDM) が大幅に進歩し,現実的な映像の制作が可能となり,世界シミュレーターとしてのコミュニティの注目を集めている。しかし、その能力にもかかわらず、VDMは物理の理解の欠如のために物理的にもっともらしいビデオを作ることができず、誤ったダイナミクスやイベントシーケンスをもたらす。この制限に対処するために,物理を明示的に組み込んだ新しい2段階画像・ビデオ生成フレームワークを提案する。第一段階では、視覚言語モデル(VLM)を粗い粒度の運動プランナとして使用し、チェーンオブ思考と物理認識推論を統合して、現実世界の物理力学を近似した粗い運動軌跡/変化を予測し、フレーム間の整合性を確保する。第2段階では、予測された動き軌跡/変化を用いて、VDMのビデオ生成を誘導する。予測された動き軌跡/変化が粗いため、推論中にノイズを追加し、より詳細な動きを生成するVDMに自由を与える。大規模な実験結果から,本フレームワークは物理的に可塑性運動を生成できることが示され,既存の手法に比べて,本手法の顕著な優位性を示す評価結果が得られた。より詳細なビデオ結果は、プロジェクトページで公開されています。

関連論文リスト

From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)
MAGIC: Motion-Aware Generative Inference via Confidence-Guided LLM [14.522189177415724]
MAGICは、シングルイメージの物理特性推論と動的生成のためのトレーニング不要のフレームワークである。本フレームワークは,静止画像からモーションリッチな映像を生成し,信頼度に基づくフィードバックループを通じて視覚と身体のギャップを埋める。実験の結果,MAGICは既存の物理認識生成手法よりも精度が高く,時間的コヒーレンスも高いことがわかった。
論文参考訳（メタデータ） (2025-05-22T09:40:34Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブなダイナミクスのビデオを生成するフレームワークであるInterDynを提案する。私たちの重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルネットワークと暗黙の物理シミュレータの両方として機能できるということです。
論文参考訳（メタデータ） (2024-12-16T13:57:02Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文参考訳（メタデータ） (2024-11-30T17:40:49Z)
E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文参考訳（メタデータ） (2024-10-11T09:19:23Z)
Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文参考訳（メタデータ） (2024-10-10T10:24:59Z)
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文参考訳（メタデータ） (2021-10-28T17:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。