論文の概要: ACWM-Phys: Investigating Generalized Physical Interaction in Action-Conditioned Video World Models
- arxiv url: http://arxiv.org/abs/2605.08567v2
- Date: Sat, 16 May 2026 00:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.215544
- Title: ACWM-Phys: Investigating Generalized Physical Interaction in Action-Conditioned Video World Models
- Title(参考訳): ACWM-Phys:アクション定義ビデオワールドモデルにおける一般物理インタラクションの調査
- Authors: Haotian Xue, Yipu Chen, Liqian Ma, Zelin Zhao, Lama Moukheiber, Yuchen Zhu, Yongxin Chen,
- Abstract要約: 行動条件付き世界モデル(ACWM)は,映像の予測と意思決定に強く期待されている。
本稿では,多様な物理力学下での行動条件予測のための新しいベンチマークであるACWM-Physを紹介する。
- 参考スコア(独自算出の注目度): 30.527810700174488
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Action-conditioned world models (ACWMs) have shown strong promise for video prediction and decision-making. However, existing benchmarks are largely restricted to egocentric navigation or narrow, task-specific robotics datasets, offering only limited coverage of the rich physical interactions required for generalized world understanding. We introduce ACWM-Phys, a new benchmark for evaluating action-conditioned prediction under diverse physical dynamics in a clean, controllable simulation environment with a carefully designed action space. ACWM-Phys contains training and evaluation data spanning rigid-body dynamics, kinematics, deformable-object interactions, and particle dynamics. To evaluate both interpolation and generalization, we design in-distribution and out-of-distribution protocols with controlled shifts in interaction patterns or scene configurations. By building the benchmark in a fully controllable simulator, ACWM-Phys enables precise data collection, reproducible evaluation, and systematic analysis of model capabilities for physically grounded world modeling. Through systematic experiments on ACWM-DiT, we find that OoD generalization depends not only on the physical regime but also on effective task complexity: models generalize well on visually simple, low-dimensional interactions with clear geometric structure, but suffer larger drops on deformable contacts, high-dimensional control, and complex articulated motion. This suggests that the model still relies heavily on visual appearance patterns instead of fully learning the underlying physics. Ablations show that cross-attention improves high-dimensional action conditioning, causal VAEs outperform frame-wise encoders, and larger action spaces are harder to model but can improve generalization by providing richer control signals. These findings guide the design of physically grounded world models.
- Abstract(参考訳): 行動条件付き世界モデル(ACWM)は,映像の予測と意思決定に強く期待されている。
しかし、既存のベンチマークはエゴセントリックなナビゲーションや、狭いタスク固有のロボティクスデータセットに限られており、一般化された世界理解に必要なリッチな物理的相互作用の限られた範囲しか提供していない。
本稿では,アクション空間を慎重に設計したクリーンで制御可能なシミュレーション環境において,多様な物理力学下での動作条件予測を評価するための新しいベンチマークであるACWM-Physを紹介する。
ACWM-Physには、剛体力学、キネマティクス、変形可能なオブジェクト相互作用、粒子動力学のトレーニングと評価データが含まれている。
補間と一般化の両面を評価するため,インタラクションパターンやシーン構成の変化を制御した分散プロトコルとアウト・オブ・ディストリビューションプロトコルを設計する。
ベンチマークを完全に制御可能なシミュレータで構築することにより、ACWM-Physは正確なデータ収集、再現可能な評価、および物理的に接地された世界モデリングのためのモデル機能の体系的解析を可能にする。
ACWM-DiTの系統的な実験を通して、OoDの一般化は物理的な構造だけでなく、効果的なタスクの複雑さにも依存することがわかった。
このことは、モデルが基礎となる物理学を完全に学習するのではなく、視覚的な外観パターンに大きく依存していることを示唆している。
アブレーションにより、クロスアテンションは高次元のアクションコンディショニングを改善し、因果VAEはフレームワイドエンコーダより優れ、より大きなアクションスペースはモデル化が難しいが、よりリッチな制御信号を提供することで一般化を改善することができる。
これらの知見は、物理的に接地された世界モデルの設計を導く。
関連論文リスト
- LaWM: Least Action World Models for Long-Horizon Physical Consistency from Visual Observations [9.35652906982887]
学習された視覚的潜伏空間における最小アクションの原理を運用するためのラストアクション世界モデル(LaWM)を提案する。
LaWMは、学習された一般化された座標に観測を符号化し、連続的な潜伏状態上で潜在離散ラグランジアンを学ぶ。
遷移は離散的な変動原理によって誘導されるため、LaWMは長期の視覚予測のための構造保存バイアスを提供する。
論文 参考訳(メタデータ) (2026-05-08T07:03:13Z) - PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文 参考訳(メタデータ) (2026-04-30T17:53:03Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - ContactGaussian-WM: Learning Physics-Grounded World Model from Videos [25.368710400385392]
本研究では,複雑な物理法則をスパースやコンタクトリッチなビデオシーケンスから直接学習できる物理地上剛体世界モデルであるContactGaussian-WMを提案する。
大規模シミュレーションと実世界の評価により、ContactGaussian-WMは複雑なシナリオの学習において最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T16:48:13Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems [38.4555621948915]
Prismatic World Model (PRISM-WM) は複雑なハイブリッド力学を構成可能なプリミティブに分解するように設計されている。
PRISM-WMは系力学におけるシャープモード遷移を正確にモデル化することでロールアウトドリフトを著しく低減する。
論文 参考訳(メタデータ) (2025-12-09T09:40:34Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - End-to-End Learning of Hybrid Inverse Dynamics Models for Precise and
Compliant Impedance Control [16.88250694156719]
剛体力学モデルの物理的に一貫した慣性パラメータを同定できる新しいハイブリッドモデルの定式化を提案する。
7自由度マニピュレータ上での最先端の逆動力学モデルに対する我々のアプローチを比較した。
論文 参考訳(メタデータ) (2022-05-27T07:39:28Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。