論文の概要: Embodied Lifelong Learning for Task and Motion Planning
- arxiv url: http://arxiv.org/abs/2307.06870v2
- Date: Mon, 6 Nov 2023 01:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:53:39.372970
- Title: Embodied Lifelong Learning for Task and Motion Planning
- Title(参考訳): タスクと運動計画のための身体的生涯学習
- Authors: Jorge Mendez-Mendez and Leslie Pack Kaelbling and Tom\'as
Lozano-P\'erez
- Abstract要約: 家庭に長時間展開するロボットは、真の生涯学習問題に直面している。
我々は、タスク・アンド・モーション・プランニング(TAMP)のための生涯学習の新しい定式化により、この設定を定式化する。
我々は,計画立案者に対して候補となる連続パラメータを生成する生成モデルの混合を開発する。
提案手法は, 2D領域とBEHAVIOR領域の計画成功において, 時間とともに, ベースラインと比較して, 大幅に改善されている。
- 参考スコア(独自算出の注目度): 24.36014876772233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A robot deployed in a home over long stretches of time faces a true lifelong
learning problem. As it seeks to provide assistance to its users, the robot
should leverage any accumulated experience to improve its own knowledge and
proficiency. We formalize this setting with a novel formulation of lifelong
learning for task and motion planning (TAMP), which endows our learner with the
compositionality of TAMP systems. Exploiting the modularity of TAMP, we develop
a mixture of generative models that produces candidate continuous parameters
for a planner. Whereas most existing lifelong learning approaches determine a
priori how data is shared across various models, our approach learns shared and
non-shared models and determines which to use online during planning based on
auxiliary tasks that serve as a proxy for each model's understanding of a
state. Our method exhibits substantial improvements (over time and compared to
baselines) in planning success on 2D and BEHAVIOR domains.
- Abstract(参考訳): 家庭に長時間展開するロボットは、真の生涯学習問題に直面している。
ユーザーに支援を提供するため、ロボットは蓄積された経験を活用し、自身の知識と技能を向上させる必要がある。
我々は,タスク・アンド・モーション・プランニング(TAMP)のための生涯学習の新たな定式化により,この設定を定式化する。
TAMPのモジュラリティを突破し、計画立案者に対して候補となる連続パラメータを生成する生成モデルの混合を開発する。
既存のほとんどの生涯学習アプローチは、さまざまなモデル間でデータの共有方法を決定するが、我々のアプローチは、共有モデルと非共有モデルを学び、各モデルの状態理解のプロキシとして機能する補助タスクに基づいて、計画中にオンラインを使用する方法を決定する。
提案手法は,2dドメインと行動ドメインの計画成功において(時間とともに,ベースラインと比較して)実質的な改善を示す。
関連論文リスト
- CLIMB: Language-Guided Continual Learning for Task Planning with Iterative Model Building [30.274897468701592]
ロボットタスク計画のための連続学習フレームワークCLIMBを提案する。
CLIMBは、自然言語の記述からモデルを構築し、タスクを解決しながら、予期せぬ述語を学び、その情報を将来の問題に保存する。
またBlocksWorld++ドメインも開発しています。これは、簡単に使える実環境と、継続的な学習を評価するのに困難なタスクのカリキュラムを兼ね備えたシミュレーション環境です。
論文 参考訳(メタデータ) (2024-10-17T16:53:43Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2
into a Robot Language Model for Grounded Task Planning [45.51792981370957]
本研究では,ロボットタスク計画における小クラス大規模言語モデル(LLM)の適用性について,計画立案者が順次実行するためのサブゴール仕様にタスクを分解することを学ぶことによって検討する。
本手法は,シーングラフとして表現される領域上でのLLMの入力に基づいて,人間の要求を実行可能なロボット計画に変換する。
本研究は,LLMに格納された知識を長期タスクプランニングに効果的に活用できることを示唆し,ロボット工学におけるニューロシンボリックプランニング手法の今後の可能性を示すものである。
論文 参考訳(メタデータ) (2023-05-12T18:14:32Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Lifelong Learning Metrics [63.8376359764052]
DARPA Lifelong Learning Machines (L2M) プログラムは、人工知能(AI)システムの進歩を目指している。
本論文は、生涯学習シナリオを実行するエージェントのパフォーマンスの構築と特徴付けのためのフォーマリズムを概説する。
論文 参考訳(メタデータ) (2022-01-20T16:29:14Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2021-11-15T16:58:50Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z) - Learning Symbolic Operators for Task and Motion Planning [29.639902380586253]
統合されたタスクとモーションプランナー(TAMP)は、モーションレベルの決定とタスクレベルの計画実現性の複雑な相互作用を処理します。
TAMPアプローチは、タスクレベルの検索を導くためにドメイン固有のシンボリック演算子に依存し、計画を効率的にします。
演算子学習のためのボトムアップリレーショナル学習法を提案し,TAMPシステムの計画に学習した演算子をどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-02-28T19:08:56Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。