論文の概要: Learning to Bridge the Gap: Efficient Novelty Recovery with Planning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.19226v1
- Date: Sat, 28 Sep 2024 03:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:28:26.065941
- Title: Learning to Bridge the Gap: Efficient Novelty Recovery with Planning and Reinforcement Learning
- Title(参考訳): ギャップを橋渡しする学習:計画と強化学習による効率的な新規性回復
- Authors: Alicia Li, Nishanth Kumar, Tomás Lozano-Pérez, Leslie Kaelbling,
- Abstract要約: モデルに基づく計画手法により、ロボットは様々な環境で複雑な長期タスクを解くことができる。
本稿では,橋梁政策を強化学習(Reinforcement Learning, RL)を通じて学習し,そのような新奇性に適応することを提案する。
この定式化により、エージェントはプランナーの知識を生かして迅速に学習できることを示す。
- 参考スコア(独自算出の注目度): 14.757429696053796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real world is unpredictable. Therefore, to solve long-horizon decision-making problems with autonomous robots, we must construct agents that are capable of adapting to changes in the environment during deployment. Model-based planning approaches can enable robots to solve complex, long-horizon tasks in a variety of environments. However, such approaches tend to be brittle when deployed into an environment featuring a novel situation that their underlying model does not account for. In this work, we propose to learn a ``bridge policy'' via Reinforcement Learning (RL) to adapt to such novelties. We introduce a simple formulation for such learning, where the RL problem is constructed with a special ``CallPlanner'' action that terminates the bridge policy and hands control of the agent back to the planner. This allows the RL policy to learn the set of states in which querying the planner and following the returned plan will achieve the goal. We show that this formulation enables the agent to rapidly learn by leveraging the planner's knowledge to avoid challenging long-horizon exploration caused by sparse reward. In experiments across three different simulated domains of varying complexity, we demonstrate that our approach is able to learn policies that adapt to novelty more efficiently than several baselines, including a pure RL baseline. We also demonstrate that the learned bridge policy is generalizable in that it can be combined with the planner to enable the agent to solve more complex tasks with multiple instances of the encountered novelty.
- Abstract(参考訳): 現実の世界は予測できない。
したがって、自律ロボットによる長期意思決定問題を解決するためには、展開中の環境の変化に適応可能なエージェントを構築する必要がある。
モデルに基づく計画手法により、ロボットは様々な環境で複雑な長期タスクを解くことができる。
しかし、そのようなアプローチは、その基盤となるモデルが考慮していない新しい状況を特徴とする環境に展開するときに脆くなる傾向にある。
そこで本研究では,Reinforcement Learning (RL) を通じて '橋のポリシー' を学習し,そのような新奇性に適応することを提案する。
本稿では,橋梁政策を終了する特別な 'CallPlanner' アクションでRL問題を構築し,エージェントのハンドコントロールをプランナーに戻すという,そのような学習のための簡単な定式化を提案する。
これにより、RLポリシーは、プランナーに問い合わせ、返却されたプランに従って目標を達成する一連の状態を学ぶことができる。
この定式化により,計画者の知識を生かし,スパース報酬による長期探査への挑戦を避けることで,エージェントが迅速に学習できることが示唆された。
複雑度の異なる3つの模擬領域を対象とした実験において、本手法は、純粋なRLベースラインを含む複数のベースラインよりも、より効率的に新規性に適応するポリシーを学習できることを実証した。
また、学習されたブリッジポリシーは、エージェントがより複雑なタスクを、遭遇したノベルティの複数のインスタンスで解決できるように、プランナーと組み合わせることが可能であることを実証する。
関連論文リスト
- MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。
我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文 参考訳(メタデータ) (2024-07-21T18:10:31Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios [24.25807334214834]
多様な複雑な駐車シナリオを扱うために,Hybrid pOlicy Path PlannEr(HOPE)を導入する。
HOPEは強化学習エージェントをReeds-Shepp曲線に統合し、多様なシナリオにまたがる効果的な計画を可能にする。
本稿では,空間および障害物分布に基づく駐車シナリオの難易度を分類するための基準を提案する。
論文 参考訳(メタデータ) (2024-05-31T02:17:51Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。