論文の概要: Guiding Robot Exploration in Reinforcement Learning via Automated
Planning
- arxiv url: http://arxiv.org/abs/2004.11456v2
- Date: Tue, 16 Mar 2021 14:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 12:38:49.701924
- Title: Guiding Robot Exploration in Reinforcement Learning via Automated
Planning
- Title(参考訳): 自動計画による強化学習におけるロボット探索の指導
- Authors: Yohei Hayamizu, Saeid Amiri, Kishan Chandan, Keiki Takadama, Shiqi
Zhang
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、エージェントが試行錯誤経験から長期的な目標を達成するための学習を可能にする。
自動計画は、行動知識を使用してタスクを達成するための計画を計算することを目的としている。
我々は、RLエージェントが行動知識で推論できるようにガイドダイナQ(GDQ)を開発した。
- 参考スコア(独自算出の注目度): 6.075903612065429
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) enables an agent to learn from trial-and-error
experiences toward achieving long-term goals; automated planning aims to
compute plans for accomplishing tasks using action knowledge. Despite their
shared goal of completing complex tasks, the development of RL and automated
planning has been largely isolated due to their different computational
modalities. Focusing on improving RL agents' learning efficiency, we develop
Guided Dyna-Q (GDQ) to enable RL agents to reason with action knowledge to
avoid exploring less-relevant states. The action knowledge is used for
generating artificial experiences from an optimistic simulation. GDQ has been
evaluated in simulation and using a mobile robot conducting navigation tasks in
a multi-room office environment. Compared with competitive baselines, GDQ
significantly reduces the effort in exploration while improving the quality of
learned policies.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、エージェントが長期目標を達成するための試行錯誤経験から学ぶことを可能にする。
複雑なタスクを完了させるという共通の目標にもかかわらず、RLと自動計画の開発は、計算量が異なるため、大きく分離されている。
RLエージェントの学習効率の向上に焦点をあてて,RLエージェントが行動知識で推論できるようにガイドダイナQ(GDQ)を開発した。
行動知識は楽観的なシミュレーションから人工体験を生成するために使用される。
gdqは、マルチルームオフィス環境でナビゲーションタスクを行う移動ロボットを用いて、シミュレーションで評価されている。
競争基準と比較すると、GDQは学習ポリシーの質を改善しながら探索の労力を大幅に削減する。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Self-Driving Car Racing: Application of Deep Reinforcement Learning [0.0]
このプロジェクトの目的は、OpenAI Gymnasium CarRacing環境でシミュレーションカーを効率的に駆動するAIエージェントを開発することである。
本稿では,DQN(Deep Q-Network)やPPO(Proximal Policy Optimization)などのRLアルゴリズムや,トランスファーラーニングとリカレントニューラルネットワーク(RNN)を組み込んだ新たな適応手法について検討する。
論文 参考訳(メタデータ) (2024-10-30T07:32:25Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Lifelong Learning Metrics [63.8376359764052]
DARPA Lifelong Learning Machines (L2M) プログラムは、人工知能(AI)システムの進歩を目指している。
本論文は、生涯学習シナリオを実行するエージェントのパフォーマンスの構築と特徴付けのためのフォーマリズムを概説する。
論文 参考訳(メタデータ) (2022-01-20T16:29:14Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Hierarchical Program-Triggered Reinforcement Learning Agents For
Automated Driving [5.404179497338455]
Reinforcement Learning(RL)とDeep Learning(DL)の最近の進歩は、自動運転を含む複雑なタスクで印象的なパフォーマンスを示しています。
本稿では,構造化プログラムと複数のrlエージェントからなる階層構造を用いて,比較的単純なタスクを実行するように訓練した階層型プログラムトリガー型強化学習法を提案する。
検証の焦点はRLエージェントからの単純な保証の下でマスタープログラムにシフトし、複雑なRLエージェントよりも解釈可能で検証可能な実装となる。
論文 参考訳(メタデータ) (2021-03-25T14:19:54Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z) - Deep Reinforcement Learning for Autonomous Driving: A Survey [0.3694429692322631]
このレビューは、深層強化学習(DRL)アルゴリズムを要約し、自動走行タスクの分類を提供する。
また、振る舞いのクローン化、模倣学習、逆強化学習など、古典的なRLアルゴリズムとは無関係な隣接領域についても記述する。
トレーニングエージェントにおけるシミュレータの役割,RLにおける既存ソリューションの検証,テスト,堅牢化手法について論じる。
論文 参考訳(メタデータ) (2020-02-02T18:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。