論文の概要: Grounded World Model for Semantically Generalizable Planning
- arxiv url: http://arxiv.org/abs/2604.11751v1
- Date: Mon, 13 Apr 2026 17:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.715754
- Title: Grounded World Model for Semantically Generalizable Planning
- Title(参考訳): 意味的に一般化可能な計画のための接地世界モデル
- Authors: Quanyi Li, Lan Feng, Haonan Zhang, Wuyang Li, Letian Wang, Alexandre Alahi, Harold Soh,
- Abstract要約: 我々は、視覚言語対応の潜在空間において、グラウンドドワールドモデル(GWM)を学習する。
提案された各アクションは、タスク命令に対する将来の結果がどの程度近いかに基づいてスコアされる。
提案したWISERベンチマークでは、GWM-MPCはテストセットで87%の成功率を達成した。
- 参考スコア(独自算出の注目度): 94.53923128709965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Model Predictive Control (MPC), world models predict the future outcomes of various action proposals, which are then scored to guide the selection of the optimal action. For visuomotor MPC, the score function is a distance metric between a predicted image and a goal image, measured in the latent space of a pretrained vision encoder like DINO and JEPA. However, it is challenging to obtain the goal image in advance of the task execution, particularly in new environments. Additionally, conveying the goal through an image offers limited interactivity compared with natural language. In this work, we propose to learn a Grounded World Model (GWM) in a vision-language-aligned latent space. As a result, each proposed action is scored based on how close its future outcome is to the task instruction, reflected by the similarity of embeddings. This approach transforms the visuomotor MPC to a VLA that surpasses VLM-based VLAs in semantic generalization. On the proposed WISER benchmark, GWM-MPC achieves a 87% success rate on the test set comprising 288 tasks that feature unseen visual signals and referring expressions, yet remain solvable with motions demonstrated during training. In contrast, traditional VLAs achieve an average success rate of 22%, even though they overfit the training set with a 90% success rate.
- Abstract(参考訳): モデル予測制御(MPC)では、世界モデルは様々なアクション提案の将来の結果を予測する。
ビジュモータMPCでは、スコア関数は、DINOやJEPAのような事前訓練された視覚エンコーダの潜時空間で測定された予測画像と目標画像との距離メートルである。
しかし,特に新しい環境において,タスク実行に先立って目標画像を取得することは困難である。
さらに、画像を通して目標を伝達することは、自然言語と比較して限定的な対話性を提供する。
本研究では,視覚言語対応の潜在空間において,グラウンドド・ワールド・モデル(GWM)を学習することを提案する。
その結果、各アクションは、埋め込みの類似性によって反映されるタスク命令に、その将来の結果がどの程度近いかに基づいてスコアされる。
このアプローチは、ビジュモータ MPC を、意味一般化において VLM ベースの VLA を超える VLA に変換する。
提案したWISERベンチマークでは、GWM-MPCは、見えない視覚信号と参照表現を特徴とする288のタスクからなるテストセットで87%の成功率を達成するが、トレーニング中に示された動作で解決可能である。
対照的に、従来のVLAは、90%の成功率でトレーニングセットを過度に適合させたとしても、平均的な成功率は22%に達する。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Planning with Reasoning using Vision Language World Model [30.40687339662431]
本稿では,自然ビデオ上での言語に基づく世界モデリングのための基礎モデルであるビジョン言語世界モデル(VLWM)を紹介する。
視覚的な観察から、VLWMはまず全体目標達成度を推定し、インターリーブされた行動と世界状態の変化からなる軌道を予測する。
VLWMは、ベンチマーク評価と提案したPlannerArenaによる人的評価において、最先端のVisual Planning for Assistance(VPA)性能を実現する。
論文 参考訳(メタデータ) (2025-09-02T18:18:57Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。