論文の概要: World Guidance: World Modeling in Condition Space for Action Generation
- arxiv url: http://arxiv.org/abs/2602.22010v1
- Date: Wed, 25 Feb 2026 15:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.881031
- Title: World Guidance: World Modeling in Condition Space for Action Generation
- Title(参考訳): World Guidance: 行動生成のための条件空間における世界モデリング
- Authors: Yue Su, Sijin Chen, Haixin Shi, Mingyu Liu, Zhengshen Zhang, Ningyuan Huang, Weiheng Zhong, Zhengbang Zhu, Yuxiao Liu, Xihui Liu,
- Abstract要約: アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
動作推論パイプラインに注入することで、将来の観測結果をコンパクトな条件にマッピングするフレームワークであるWoGを提案する。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
- 参考スコア(独自算出の注目度): 39.098315503589895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging future observation modeling to facilitate action generation presents a promising avenue for enhancing the capabilities of Vision-Language-Action (VLA) models. However, existing approaches struggle to strike a balance between maintaining efficient, predictable future representations and preserving sufficient fine-grained information to guide precise action generation. To address this limitation, we propose WoG (World Guidance), a framework that maps future observations into compact conditions by injecting them into the action inference pipeline. The VLA is then trained to simultaneously predict these compressed conditions alongside future actions, thereby achieving effective world modeling within the condition space for action inference. We demonstrate that modeling and predicting this condition space not only facilitates fine-grained action generation but also exhibits superior generalization capabilities. Moreover, it learns effectively from substantial human manipulation videos. Extensive experiments across both simulation and real-world environments validate that our method significantly outperforms existing methods based on future prediction. Project page is available at: https://selen-suyue.github.io/WoGNet/
- Abstract(参考訳): アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
しかし、既存のアプローチは、効率的で予測可能な未来の表現を維持することと、正確な行動生成を導くのに十分な詳細な情報を保持することのバランスをとろうとしている。
この制限に対処するため、我々はWoG(World Guidance)というフレームワークを提案し、このフレームワークは将来の観測をアクション推論パイプラインに注入することで、コンパクトな条件にマッピングする。
VLAは、これらの圧縮された条件と将来の行動とを同時に予測して、アクション推論の条件空間内で効果的な世界モデリングを実現するように訓練される。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
さらに、人間の操作ビデオから効果的に学習する。
シミュレーション環境と実環境環境の両方にわたる大規模な実験により,本手法は今後の予測に基づいて既存手法を著しく上回っていることを確認した。
プロジェクトページは、https://selen-suyue.github.io/WoGNet/で公開されている。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos [13.630119246378518]
我々は、世界モデルを駆動するには、アクションコントロールとアクション予測の2つの追加能力が必要であると論じる。
ProphetDWMは、未来のビデオやアクションを共同で予測する新しいエンド・ツー・エンドの運転世界モデルである。
論文 参考訳(メタデータ) (2025-05-24T11:35:09Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。
本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。
本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文 参考訳(メタデータ) (2025-03-08T11:17:37Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。