論文の概要: SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.09990v1
- Date: Mon, 16 Sep 2024 04:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:40:52.839977
- Title: SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning
- Title(参考訳): Shire:強化学習における人間の直感によるサンプル効率の向上
- Authors: Amogh Joshi, Adarsh Kumar Kosta, Kaushik Roy,
- Abstract要約: 確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
- 参考スコア(独自算出の注目度): 11.304750795377657
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability of neural networks to perform robotic perception and control tasks such as depth and optical flow estimation, simultaneous localization and mapping (SLAM), and automatic control has led to their widespread adoption in recent years. Deep Reinforcement Learning has been used extensively in these settings, as it does not have the unsustainable training costs associated with supervised learning. However, DeepRL suffers from poor sample efficiency, i.e., it requires a large number of environmental interactions to converge to an acceptable solution. Modern RL algorithms such as Deep Q Learning and Soft Actor-Critic attempt to remedy this shortcoming but can not provide the explainability required in applications such as autonomous robotics. Humans intuitively understand the long-time-horizon sequential tasks common in robotics. Properly using such intuition can make RL policies more explainable while enhancing their sample efficiency. In this work, we propose SHIRE, a novel framework for encoding human intuition using Probabilistic Graphical Models (PGMs) and using it in the Deep RL training pipeline to enhance sample efficiency. Our framework achieves 25-78% sample efficiency gains across the environments we evaluate at negligible overhead cost. Additionally, by teaching RL agents the encoded elementary behavior, SHIRE enhances policy explainability. A real-world demonstration further highlights the efficacy of policies trained using our framework.
- Abstract(参考訳): ニューラルネットワークが、深度や光フローの推定、同時局所化とマッピング(SLAM)、自動制御といったロボット知覚と制御タスクを実行する能力は、近年広く採用されている。
深層強化学習(Deep Reinforcement Learning)は、教師あり学習に関連する持続不可能なトレーニングコストを持たないため、これらの設定で広く使用されている。
しかし、DeepRLはサンプル効率の低さ、すなわち許容できる解に収束するためには、多数の環境相互作用を必要とする。
Deep Q LearningやSoft Actor-Criticのような現代のRLアルゴリズムは、この欠点を解決しようとするが、自律ロボット工学のようなアプリケーションで必要とされる説明責任は提供できない。
人間はロボット工学に共通する長年の水平連続的なタスクを直感的に理解する。
このような直観を適切に利用すれば、RLポリシーはより説明しやすくなり、サンプル効率が向上する。
本稿では,確率的グラフィカルモデル(PGM)を用いて人間の直観を符号化し,サンプル効率を高めるためにDeep RLトレーニングパイプラインで使用するための新しいフレームワークであるShireを提案する。
我々のフレームワークは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成する。
さらに、RLエージェントにコード化された初等行動を教えることで、政策説明可能性を高める。
実世界のデモでは、私たちのフレームワークを使ってトレーニングされたポリシーの有効性をさらに強調しています。
関連論文リスト
- Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。
提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。
提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文 参考訳(メタデータ) (2024-10-29T08:12:20Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - Using Generative Adversarial Nets on Atari Games for Feature Extraction
in Deep Reinforcement Learning [0.76146285961466]
Deep Reinforcement Learning (DRL)は、ロボットナビゲーションやビデオゲームの自動プレイなど、いくつかの研究領域で成功している。
この要件の主な理由は、疎結合で遅延した報酬が、ディープニューラルネットワークの表現学習に効果的な監督を提供していないことである。
本研究では,PPOアルゴリズムをGAN(Generative Adrial Networks)で拡張し,ネットワークを介さずに効率的な表現を学習させることにより,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2020-04-06T15:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。