Fugu-MT 論文翻訳(概要): Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

論文の概要: Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals

arxiv url: http://arxiv.org/abs/2505.19386v1
Date: Mon, 26 May 2025 01:04:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.086031
Title: Force Prompting: Video Generation Models Can Learn and Generalize Physics-based Control Signals
Title（参考訳）: フォース・プロンプティング:物理に基づく制御信号の学習と一般化が可能なビデオ生成モデル
Authors: Nate Gillman, Charles Herrmann, Michael Freeman, Daksh Aggarwal, Evan Luo, Deqing Sun, Chen Sun,
Abstract要約: 映像生成のための制御信号として物理力を用いる。そこで我々は,局所的な力によって画像と対話できる力のプロンプトを提案する。これらの力のプロンプトによって、ビデオが物理的な制御信号に現実的に反応できることを実証する。
参考スコア（独自算出の注目度）: 18.86902152614664
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in video generation models have sparked interest in world models capable of simulating realistic environments. While navigation has been well-explored, physically meaningful interactions that mimic real-world forces remain largely understudied. In this work, we investigate using physical forces as a control signal for video generation and propose force prompts which enable users to interact with images through both localized point forces, such as poking a plant, and global wind force fields, such as wind blowing on fabric. We demonstrate that these force prompts can enable videos to respond realistically to physical control signals by leveraging the visual and motion prior in the original pretrained model, without using any 3D asset or physics simulator at inference. The primary challenge of force prompting is the difficulty in obtaining high quality paired force-video training data, both in the real world due to the difficulty of obtaining force signals, and in synthetic data due to limitations in the visual quality and domain diversity of physics simulators. Our key finding is that video generation models can generalize remarkably well when adapted to follow physical force conditioning from videos synthesized by Blender, even with limited demonstrations of few objects. Our method can generate videos which simulate forces across diverse geometries, settings, and materials. We also try to understand the source of this generalization and perform ablations that reveal two key elements: visual diversity and the use of specific text keywords during training. Our approach is trained on only around 15k training examples for a single day on four A100 GPUs, and outperforms existing methods on force adherence and physics realism, bringing world models closer to real-world physics interactions. We release all datasets, code, weights, and interactive video demos at our project page.
Abstract（参考訳）: 近年の映像生成モデルの発展により、現実的な環境をシミュレートできる世界モデルへの関心が高まっている。ナビゲーションはよく研究されてきたが、現実世界の力を模倣する物理的に意味のある相互作用はほとんど検討されていない。本研究では,映像生成の制御信号として物理力を用いることで,植物を突くような局所的な点力と,布地を吹くような大域的な風力場を通して画像と対話できる力プロンプトを提案する。これらの力のプロンプトは、推定時に3次元のアセットや物理シミュレータを使わずに、元の事前学習モデルに先行する視覚と動きを活用することで、ビデオが物理的な制御信号に現実的に応答できることを実証する。フォースプロンプトの主な課題は、力信号の取得が困難である実世界でも、物理シミュレータの視覚的品質や領域の多様性の制限による合成データにおいても、高品質な対力ビデオトレーニングデータを取得することの難しさである。私たちの重要な発見は、ビデオ生成モデルは、Blenderによって合成されたビデオから物理的な力条件に従うように適応すれば、少数のオブジェクトの限られたデモでも、驚くほどうまく一般化できるということです。本手法は, 多様な測地, 設定, 材料にまたがる力をシミュレートするビデオを生成する。また、この一般化の源泉を理解し、視覚的多様性と訓練中の特定のテキストキーワードの使用という2つの重要な要素を明らかにすることを試みる。われわれのアプローチは、4つのA100 GPUで1日15kのトレーニング例でしか訓練されておらず、力の付着と物理リアリズムに関する既存の手法よりも優れており、世界モデルを現実世界の物理相互作用に近づけている。プロジェクトページで、すべてのデータセット、コード、ウェイト、インタラクティブなビデオデモをリリースしています。

関連論文リスト

RoboScape: Physics-informed Embodied World Model [25.61586473778092]
本稿では、RGBビデオ生成と物理知識を共同で学習する統合物理インフォームドワールドモデルであるRoboScapeを紹介する。実験によると、RoboScapeは多様なロボットシナリオにまたがって、優れた視覚的忠実度と物理的妥当性を持つビデオを生成する。我々の研究は、エンボディドインテリジェンス研究を前進させるために、効率的な物理インフォームド世界モデルを構築するための新しい洞察を提供する。
論文参考訳（メタデータ） (2025-06-29T08:19:45Z)
Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文参考訳（メタデータ） (2025-05-27T18:26:43Z)
Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文参考訳（メタデータ） (2025-04-03T15:21:17Z)
VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。 VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-30T09:03:09Z)
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文参考訳（メタデータ） (2024-09-27T17:59:57Z)
VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文参考訳（メタデータ） (2024-06-05T17:53:55Z)
Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。 ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文参考訳（メタデータ） (2023-12-28T23:34:43Z)
Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文参考訳（メタデータ） (2023-10-09T19:42:22Z)
PhysGraph: Physics-Based Integration Using Graph Neural Networks [9.016253794897874]
我々は,コンピュータゲーム,バーチャルリアリティ,バーチャルトライオンなど多くの応用がある粗い衣服形状の詳細な拡張に焦点を当てた。我々の貢献は単純な観察に基づいており、従来のシミュレーション手法では計算コストが比較的安い。このアイデアが、小さなメッシュパッチの基本的な内部力に基づいてトレーニング可能な、学習可能なモジュールにつながることを実証しています。
論文参考訳（メタデータ） (2023-01-27T16:47:10Z)
Use the Force, Luke! Learning to Predict Physical Forces by Simulating Effects [79.351446087227]
物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
論文参考訳（メタデータ） (2020-03-26T17:20:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。