論文の概要: Efficient Robotic Policy Learning via Latent Space Backward Planning
- arxiv url: http://arxiv.org/abs/2505.06861v2
- Date: Tue, 27 May 2025 10:30:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.113189
- Title: Efficient Robotic Policy Learning via Latent Space Backward Planning
- Title(参考訳): 潜在空間後方計画による効率的なロボット政策学習
- Authors: Dongxiu Liu, Haoyi Niu, Zhihao Wang, Jinliang Zheng, Yinan Zheng, Zhonghong Ou, Jianming Hu, Jianxiong Li, Xianyuan Zhan,
- Abstract要約: 現行のロボット計画手法は、しばしば、全画素の詳細を持つ多フレーム画像の予測に頼っている。
本稿では,その課題を最終目標とするLBP(Latent Space Backward Planning scheme)を提案する。
LBPは既存の細粒度・前方計画法よりも優れた性能を示し,SOTA性能を実現している。
- 参考スコア(独自算出の注目度): 17.770562202624962
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current robotic planning methods often rely on predicting multi-frame images with full pixel details. While this fine-grained approach can serve as a generic world model, it introduces two significant challenges for downstream policy learning: substantial computational costs that hinder real-time deployment, and accumulated inaccuracies that can mislead action extraction. Planning with coarse-grained subgoals partially alleviates efficiency issues. However, their forward planning schemes can still result in off-task predictions due to accumulation errors, leading to misalignment with long-term goals. This raises a critical question: Can robotic planning be both efficient and accurate enough for real-time control in long-horizon, multi-stage tasks? To address this, we propose a Latent Space Backward Planning scheme (LBP), which begins by grounding the task into final latent goals, followed by recursively predicting intermediate subgoals closer to the current state. The grounded final goal enables backward subgoal planning to always remain aware of task completion, facilitating on-task prediction along the entire planning horizon. The subgoal-conditioned policy incorporates a learnable token to summarize the subgoal sequences and determines how each subgoal guides action extraction. Through extensive simulation and real-robot long-horizon experiments, we show that LBP outperforms existing fine-grained and forward planning methods, achieving SOTA performance. Project Page: https://lbp-authors.github.io
- Abstract(参考訳): 現行のロボット計画手法は、しばしば、全画素の詳細を持つ多フレーム画像の予測に頼っている。
このきめ細かいアプローチは、一般的な世界モデルとして機能するが、ダウンストリームポリシー学習には、リアルタイムデプロイメントを妨げる相当な計算コストと、アクション抽出を誤解させる可能性のある不正確な蓄積という、2つの大きな課題が伴う。
粗粒のサブゴールによる計画は、効率の問題を部分的に緩和する。
しかしながら、彼らの前方計画スキームは依然として累積誤差によるオフタスク予測をもたらし、長期的目標との相違につながる。
ロボットプランニングは、長時間のマルチステージタスクにおいて、リアルタイムの制御に十分な効率と正確性を両立できるのだろうか?
そこで本研究では,現在状態に近い中間部分ゴールを再帰的に予測し,そのタスクを最終潜在目標にグラウンド化することから,LBP(Latent Space Backward Planning scheme)を提案する。
最終目標は、後進的な計画が常にタスク完了を意識することを可能にし、計画全体に沿ってタスクの予測を容易にすることである。
サブゴール条件付きポリシーは学習可能なトークンを組み込んでサブゴールシーケンスを要約し、各サブゴールがアクション抽出をどのようにガイドするかを決定する。
大規模シミュレーションと実ロボット長期水平実験により,LBPは既存の細粒度・前方計画法より優れ,SOTA性能が向上することを示した。
Project Page: https://lbp-authors.github.io
関連論文リスト
- Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling [21.45039811922009]
我々は、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。
効率的なクローズドループ計画のためのネスト型平衡系列モデリング手法を考案した。
提案手法はVirtualHome-Envベンチマークで評価され,スケーリングw.r.t.推論時間計算の改善による高度な性能を示す。
論文 参考訳(メタデータ) (2024-10-02T11:42:49Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - iCORPP: Interleaved Commonsense Reasoning and Probabilistic Planning on
Robots [46.13039152809055]
我々はiCORPPと呼ばれる新しいアルゴリズムを提案し、現在の世界状態を同時に推定し、世界ダイナミクスの推論を行い、タスク指向のコントローラを構築する。
結果は、競合するベースラインと比較して、スケーラビリティ、効率、適応性が大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2020-04-18T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。