論文の概要: World Guidance: World Modeling in Condition Space for Action Generation
- arxiv url: http://arxiv.org/abs/2602.22010v1
- Date: Wed, 25 Feb 2026 15:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.881031
- Title: World Guidance: World Modeling in Condition Space for Action Generation
- Title(参考訳): World Guidance: 行動生成のための条件空間における世界モデリング
- Authors: Yue Su, Sijin Chen, Haixin Shi, Mingyu Liu, Zhengshen Zhang, Ningyuan Huang, Weiheng Zhong, Zhengbang Zhu, Yuxiao Liu, Xihui Liu,
- Abstract要約: アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
動作推論パイプラインに注入することで、将来の観測結果をコンパクトな条件にマッピングするフレームワークであるWoGを提案する。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
- 参考スコア(独自算出の注目度): 39.098315503589895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging future observation modeling to facilitate action generation presents a promising avenue for enhancing the capabilities of Vision-Language-Action (VLA) models. However, existing approaches struggle to strike a balance between maintaining efficient, predictable future representations and preserving sufficient fine-grained information to guide precise action generation. To address this limitation, we propose WoG (World Guidance), a framework that maps future observations into compact conditions by injecting them into the action inference pipeline. The VLA is then trained to simultaneously predict these compressed conditions alongside future actions, thereby achieving effective world modeling within the condition space for action inference. We demonstrate that modeling and predicting this condition space not only facilitates fine-grained action generation but also exhibits superior generalization capabilities. Moreover, it learns effectively from substantial human manipulation videos. Extensive experiments across both simulation and real-world environments validate that our method significantly outperforms existing methods based on future prediction. Project page is available at: https://selen-suyue.github.io/WoGNet/
- Abstract(参考訳): アクション生成を容易にするために将来の観測モデルを活用することで、ビジョン・ランゲージ・アクション(VLA)モデルの能力を高めるための有望な道が提示される。
しかし、既存のアプローチは、効率的で予測可能な未来の表現を維持することと、正確な行動生成を導くのに十分な詳細な情報を保持することのバランスをとろうとしている。
この制限に対処するため、我々はWoG(World Guidance)というフレームワークを提案し、このフレームワークは将来の観測をアクション推論パイプラインに注入することで、コンパクトな条件にマッピングする。
VLAは、これらの圧縮された条件と将来の行動とを同時に予測して、アクション推論の条件空間内で効果的な世界モデリングを実現するように訓練される。
この条件空間のモデル化と予測は, きめ細かな動作生成を促進するだけでなく, より優れた一般化能力を示すことを示す。
さらに、人間の操作ビデオから効果的に学習する。
シミュレーション環境と実環境環境の両方にわたる大規模な実験により,本手法は今後の予測に基づいて既存手法を著しく上回っていることを確認した。
プロジェクトページは、https://selen-suyue.github.io/WoGNet/で公開されている。
関連論文リスト
- DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。
本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。
本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文 参考訳(メタデータ) (2025-03-08T11:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。