論文の概要: Predictive but Not Plannable: RC-aux for Latent World Models
- arxiv url: http://arxiv.org/abs/2605.07278v1
- Date: Fri, 08 May 2026 05:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.83084
- Title: Predictive but Not Plannable: RC-aux for Latent World Models
- Title(参考訳): 予測はできるが計画できない: RC-auxの潜在世界モデル
- Authors: Wenyuan Li, Guang Li, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: 到達可能性補正補助(RC-aux)
本稿では,このミスマッチに対する軽量な補正法であるReachability-Correctionssisted (RC-aux)を提案する。
RC-auxは世界モデルのバックボーンを変更せず、2つの軸に沿って計画に沿った監督を追加する。
- 参考スコア(独自算出の注目度): 44.63243875072762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A latent world model may achieve accurate short-horizon prediction while still inducing a latent space that is poorly aligned with planning. A key issue is spatiotemporal mismatch: these models are often trained with local predictive supervision, but deployed for long-horizon goal-directed search in latent spaces where Euclidean distance may not reflect what is reachable within a finite action budget. We present the Reachability-Correction auxiliary objective (RC-aux), a lightweight correction for this mismatch in reconstruction-free latent world models. RC-aux keeps the world-model backbone unchanged and adds planning-aligned supervision along two axes. Along the time axis, multi-horizon open-loop prediction trains the model beyond one-step consistency. Along the space axis, budget-conditioned reachability supervision, together with temporal hard negatives, encourages the latent space to distinguish states that are eventually reachable from those reachable within the current planning horizon. At test time, the learned reachability signal can also be used by a reachability-aware planner to favor trajectories that are both goal-directed and attainable under the available budget. We instantiate RC-aux on LeWorldModel and evaluate it under both continuation-training and matched-from-scratch settings. Across goal-conditioned pixel-control tasks and a LIBERO-Goal extension, RC-aux improves LeWM-style planning with modest additional cost. These results suggest that planning with latent world models depends not only on predictive accuracy, but also on whether the learned representation encodes the temporal and geometric structure required by downstream search. The code is available at https://github.com/Guang000/RC-aux.
- Abstract(参考訳): 潜在世界モデルは、計画に不整合な潜在空間を誘導しながら、正確な短水平予測を達成することができる。
これらのモデルは、しばしば局所的な予測監督で訓練されるが、ユークリッド距離が有限の行動予算の範囲内で到達可能なことを反映しない潜在空間において、長期の目標指向探索のために展開される。
本稿では,このミスマッチに対する軽量な補正手法であるReachability-Correctionssisted objective (RC-aux)を提案する。
RC-auxは世界モデルのバックボーンを変更せず、2つの軸に沿って計画に沿った監督を追加する。
時間軸に沿って、マルチ水平開ループ予測は1ステップの一貫性を超えたモデルを訓練する。
空間軸に沿って、予算条件付き到達可能性監視(英語版)は、時間的強硬な負とともに、現在の計画地平線内で到達可能な状態と最終的に到達可能な状態とを区別するよう潜在空間を奨励する。
テスト時には、学習した到達性信号はリーチビリティを意識したプランナーが使用して、目標指向かつ利用可能な予算下で達成可能な軌跡を選択できる。
我々は、LeWorldModel上でRC-auxをインスタンス化し、継続トレーニングと一致スクラッチ設定の両方で評価する。
目標条件付きピクセル制御タスクとLIBERO-Goal拡張を含むRC-auxは、LeWMスタイルのプランニングを少しのコストで改善する。
これらの結果は、潜在世界モデルによる計画は、予測精度だけでなく、学習された表現が下流探索に必要な時間的・幾何学的構造を符号化するかどうかにも依存していることを示唆している。
コードはhttps://github.com/Guang000/RC-auxで公開されている。
関連論文リスト
- Hierarchical Planning with Latent World Models [49.82095442483551]
階層的計画は、最大4倍の計画時間計算を必要としながら、より高い成功を達成する。
この階層的なアプローチにより、現実世界の非グリーディロボットタスクをゼロショットで制御できることを実証する。
論文 参考訳(メタデータ) (2026-04-03T17:32:36Z) - Laplacian Representations for Decision-Time Planning [20.25004555858261]
複数の時間スケールで状態空間距離をキャプチャすることで、ラプラシア表現が計画に有効な潜在空間を提供することを示す。
この表現は意味のある距離を保ち、自然に長い水平問題をサブゴールに分解し、長い予測地平線上で生じる複合誤差を緩和する。
階層的計画アルゴリズムであるALPSを導入し、OGBenchのオフラインゴール条件付きRLタスクの選択において、一般的に使用されるベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-04T20:34:50Z) - Act2Goal: From World Model To General Goal-conditioned Policy [14.222177107215648]
Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
論文 参考訳(メタデータ) (2025-12-29T15:28:42Z) - GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment [16.343768407636322]
本稿では,自己指導型ポストトレーニングフレームワークであるReinforcement Learning with World Grounding(RLWG)を紹介する。
このフレームワークをGrndCtrlでインスタンス化する。GrndCtrlは、グループ相対ポリシー最適化(GRPO)に基づく報酬整合型適応手法で、安定な軌道の維持、一貫した幾何、エンボディナビゲーションのための信頼性のあるロールアウトを行う世界モデルを生成する。
論文 参考訳(メタデータ) (2025-12-01T18:03:29Z) - World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。
mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。
特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文 参考訳(メタデータ) (2025-05-03T06:23:18Z) - Large-scale Autonomous Flight with Real-time Semantic SLAM under Dense
Forest Canopy [48.51396198176273]
本研究では,大規模自律飛行とリアルタイムセマンティックマッピングを,挑戦的なアンダーキャノピー環境下で実現可能な統合システムを提案する。
我々は、スキャン全体で関連付けられ、木のトランクモデルと同様にロボットのポーズを制約するために使用されるLiDARデータから、木の幹と地面の平面を検出し、モデル化する。
ドリフト補償機構は、プランナー最適性とコントローラ安定性を維持しつつ、セマンティックSLAM出力を用いたドリフトをリアルタイムで最小化するように設計されている。
論文 参考訳(メタデータ) (2021-09-14T07:24:53Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。