論文の概要: Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
- arxiv url: http://arxiv.org/abs/2601.05848v1
- Date: Fri, 09 Jan 2026 15:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.001846
- Title: Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
- Title(参考訳): ゴールフォース:物理に精通したゴールをビデオモデルに教える
- Authors: Nate Gillman, Yinghua Zhou, Zitian Tang, Evan Luo, Arjan Chakravarthy, Daksh Aggarwal, Michael Freeman, Charles Herrmann, Chen Sun,
- Abstract要約: Goal Forceを使えば、明示的な力ベクトルと中間ダイナミクスを使って目標を定義することができる。
我々は、合成因果プリミティブのキュレートされたデータセットに基づいて、ビデオ生成モデルを訓練する。
以上の結果から,映像生成を基礎的な物理相互作用で基礎づけることで,暗黙的な神経物理シミュレータとしてモデルが現れる可能性が示唆された。
- 参考スコア(独自算出の注目度): 15.286299359279509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video generation have enabled the development of ``world models'' capable of simulating potential futures for robotics and planning. However, specifying precise goals for these models remains a challenge; text instructions are often too abstract to capture physical nuances, while target images are frequently infeasible to specify for dynamic tasks. To address this, we introduce Goal Force, a novel framework that allows users to define goals via explicit force vectors and intermediate dynamics, mirroring how humans conceptualize physical tasks. We train a video generation model on a curated dataset of synthetic causal primitives-such as elastic collisions and falling dominos-teaching it to propagate forces through time and space. Despite being trained on simple physics data, our model exhibits remarkable zero-shot generalization to complex, real-world scenarios, including tool manipulation and multi-object causal chains. Our results suggest that by grounding video generation in fundamental physical interactions, models can emerge as implicit neural physics simulators, enabling precise, physics-aware planning without reliance on external engines. We release all datasets, code, model weights, and interactive video demos at our project page.
- Abstract(参考訳): 近年のビデオ生成の進歩により、ロボット工学と計画の将来をシミュレートできる「世界モデル」の開発が可能になった。
テキスト命令は物理的ニュアンスを捉えるには抽象的すぎることが多いが、ターゲット画像は動的タスクを指定できないことが多い。
この問題を解決するために、Goal Forceという新しいフレームワークを紹介します。これは、人間が物理的なタスクをどのように概念化するかを反映した、明示的な力ベクトルと中間ダイナミクスによって、ユーザーが目標を定義することを可能にするものです。
我々は、弾性衝突やドミノ教育など、合成因果原始体のキュレートされたデータセットに基づいてビデオ生成モデルを訓練し、時間と空間を通じて力を伝達する。
単純な物理データに基づいて訓練されているにもかかわらず、我々のモデルは、ツール操作や多目的因果連鎖を含む複雑な実世界のシナリオに顕著なゼロショットの一般化を示す。
以上の結果から,映像生成を基礎的な物理相互作用で基礎付けることにより,モデルが暗黙のニューラルネットワークシミュレータとして出現し,外部エンジンに依存しない正確な物理を考慮した計画が可能になることが示唆された。
プロジェクトページでは、データセット、コード、モデルウェイト、インタラクティブなビデオデモをすべてリリースしています。
関連論文リスト
- Simulating the Visual World with Artificial Intelligence: A Roadmap [48.64639618440864]
ビデオ生成は、視覚的に魅力的なクリップを生成するものから、インタラクションをサポートし、物理的な可視性を維持する仮想環境を構築するものへとシフトしている。
この調査は、この進化の体系的な概要を提供し、現代のビデオ基盤モデルを2つのコアコンポーネントの組み合わせとして概念化した。
4世代にわたる映像生成の進展を追究し,本質的な物理的妥当性を具現化した映像生成モデルを構築した。
論文 参考訳(メタデータ) (2025-11-11T18:59:50Z) - Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - RoboScape: Physics-informed Embodied World Model [25.61586473778092]
本稿では、RGBビデオ生成と物理知識を共同で学習する統合物理インフォームドワールドモデルであるRoboScapeを紹介する。
実験によると、RoboScapeは多様なロボットシナリオにまたがって、優れた視覚的忠実度と物理的妥当性を持つビデオを生成する。
我々の研究は、エンボディドインテリジェンス研究を前進させるために、効率的な物理インフォームド世界モデルを構築するための新しい洞察を提供する。
論文 参考訳(メタデータ) (2025-06-29T08:19:45Z) - Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals [18.86902152614664]
映像生成のための制御信号として物理力を用いる。
そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。
これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
論文 参考訳(メタデータ) (2025-05-26T01:04:02Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。