論文の概要: AI Planning Annotation for Sample Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2203.00669v1
- Date: Tue, 1 Mar 2022 18:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:21:42.577587
- Title: AI Planning Annotation for Sample Efficient Reinforcement Learning
- Title(参考訳): 効率的な強化学習のためのAIプランニングアノテーション
- Authors: Junkyu Lee, Michael Katz, Don Joven Agravante, Miao Liu, Tim Klinger,
Murray Campbell, Shirin Sohrabi, Gerald Tesauro
- Abstract要約: 我々は、強化学習(RL)の効率を向上させるために、適切に定義された計画モデルを用いることができることを示す。
本実験では, 従来のRL環境よりも, 様々なRL環境において, サンプル効率が向上したことを示す。
- 参考スコア(独自算出の注目度): 39.4624736757278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI planning and Reinforcement Learning (RL) both solve sequential
decision-making problems under the different formulations. AI Planning requires
operator models, but then allows efficient plan generation. RL requires no
operator model, instead learns a policy to guide an agent to high reward
states. Planning can be brittle in the face of noise whereas RL is more
tolerant. However, RL requires a large number of training examples to learn the
policy. In this work, we aim to bring AI planning and RL closer by showing that
a suitably defined planning model can be used to improve the efficiency of RL.
Specifically, we show that the options in the hierarchical RL can be derived
from a planning task and integrate planning and RL algorithms for training
option policy functions. Our experiments demonstrate an improved sample
efficiency on a variety of RL environments over the previous state-of-the-art.
- Abstract(参考訳): AI計画と強化学習(RL)はどちらも、異なる定式化の下でシーケンシャルな意思決定問題を解決する。
AI Planningはオペレータモデルを必要とするが、効率的なプラン生成を可能にする。
RLは演算子モデルを必要とせず、代わりにエージェントを高い報酬状態に導くポリシーを学ぶ。
RLは耐久性が高いのに対して、ノイズに直面して計画が脆くなることがある。
しかし、RLはポリシーを学ぶために多くのトレーニング例を必要とします。
本研究は、RLの効率を改善するために適切に定義された計画モデルを使用することで、AI計画とRLをより近づけることを目指している。
具体的には、階層的なRLのオプションは計画タスクから導出することができ、オプションポリシー関数のトレーニングのための計画とRLアルゴリズムを統合することができることを示す。
実験では,従来より様々なrl環境におけるサンプル効率の向上を実証した。
関連論文リスト
- Reinforced Imitative Trajectory Planning for Urban Automated Driving [3.2436298824947434]
本稿では,RLと模倣学習を統合して多段階計画を可能にする,RLに基づく新しい軌道計画手法を提案する。
都市シナリオにおけるRLに対する効果的な報酬信号を提供する変圧器に基づくベイズ報酬関数を開発した。
提案手法は,大規模な都市自動運転 nuPlan データセット上で検証された。
論文 参考訳(メタデータ) (2024-10-21T03:04:29Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics [20.148408520475655]
本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
論文 参考訳(メタデータ) (2021-11-15T16:58:50Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。