論文の概要: RAMP: Hybrid DRL for Online Learning of Numeric Action Models
- arxiv url: http://arxiv.org/abs/2604.08685v1
- Date: Thu, 09 Apr 2026 18:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.532318
- Title: RAMP: Hybrid DRL for Online Learning of Numeric Action Models
- Title(参考訳): RAMP: 数値行動モデルのオンライン学習のためのハイブリッドDRL
- Authors: Yarin Benyamin, Argaman Mordoch, Shahaf S. Shperberg, Roni Stern,
- Abstract要約: 本稿では,環境とのインタラクションを通じて,数値計画行動モデルをオンラインで学習するための戦略を提案する。
RAMPは同時に、Deep Reinforcement Learning (DRL)ポリシーをトレーニングし、過去のインタラクションから数値アクションモデルを学び、そのモデルを使用して、可能ならば将来のアクションを計画する。
実験の結果、RAMPは解答可能性やプラン品質の観点から、よく知られたDRLアルゴリズムであるPPOよりも優れていた。
- 参考スコア(独自算出の注目度): 7.9654550247344895
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated planning algorithms require an action model specifying the preconditions and effects of each action, but obtaining such a model is often hard. Learning action models from observations is feasible, but existing algorithms for numeric domains are offline, requiring expert traces as input. We propose the Reinforcement learning, Action Model learning, and Planning (RAMP) strategy for learning numeric planning action models online via interactions with the environment. RAMP simultaneously trains a Deep Reinforcement Learning (DRL) policy, learns a numeric action model from past interactions, and uses that model to plan future actions when possible. These components form a positive feedback loop: the RL policy gathers data to refine the action model, while the planner generates plans to continue training the RL policy. To facilitate this integration of RL and numeric planning, we developed Numeric PDDLGym, an automated framework for converting numeric planning problems to Gym environments. Experimental results on standard IPC numeric domains show that RAMP significantly outperforms PPO, a well-known DRL algorithm, in terms of solvability and plan quality.
- Abstract(参考訳): 自動計画アルゴリズムは、各アクションの条件と効果を指定するアクションモデルを必要とするが、そのようなモデルを取得することはしばしば難しい。
観測からアクションモデルを学ぶことは可能であるが、数値領域のための既存のアルゴリズムはオフラインであり、入力として専門家のトレースを必要とする。
本稿では,環境とのインタラクションを通じて,数値計画行動モデルをオンラインで学習するための強化学習,行動モデル学習,計画(RAMP)戦略を提案する。
RAMPは同時に、Deep Reinforcement Learning (DRL)ポリシーをトレーニングし、過去のインタラクションから数値アクションモデルを学び、そのモデルを使用して、可能ならば将来のアクションを計画する。
これらのコンポーネントは肯定的なフィードバックループを形成し、RLポリシーはアクションモデルを洗練するためにデータを収集し、プランナーはRLポリシーのトレーニングを継続する計画を生成する。
このRLと数値計画の統合を容易にするために,数値計画問題をGym環境に変換するための自動フレームワークであるNumeric PDDLGymを開発した。
標準IPC数値領域における実験結果から、RAMPは解答可能性やプラン品質の観点から、よく知られたDRLアルゴリズムであるPPOを著しく上回っていることがわかった。
関連論文リスト
- Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。
以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文 参考訳(メタデータ) (2025-02-26T10:16:57Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks [12.281688043929996]
自動計画アルゴリズムは、各アクションの前提条件と効果を指定するドメインのモデルを必要とする。
数値的なドメインモデルと計画の学習が、数値的な計画環境にとって効果的なアプローチであるかどうかは不明だ。
本研究では、数値的なドメインモデルを学習し、それを代替のモデルフリーソリューションと比較する利点について検討する。
論文 参考訳(メタデータ) (2025-02-18T16:26:21Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2021-11-15T16:58:50Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。