論文の概要: RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation
- arxiv url: http://arxiv.org/abs/2405.03064v2
- Date: Mon, 27 May 2024 21:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:39:49.525181
- Title: RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation
- Title(参考訳): RICE:説明による強化学習の学習基盤を突破する
- Authors: Zelei Cheng, Xian Wu, Jiahao Yu, Sabrina Yang, Gang Wang, Xinyu Xing,
- Abstract要約: RICEは強化学習のための革新的な精製手法である。
トレーニングボトルネックを突破するための説明手法が組み込まれている。
様々なRL環境と実世界のアプリケーションでRICEを評価する。
- 参考スコア(独自算出の注目度): 40.84214941048131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) is playing an increasingly important role in real-world applications. However, obtaining an optimally performing DRL agent for complex tasks, especially with sparse rewards, remains a significant challenge. The training of a DRL agent can be often trapped in a bottleneck without further progress. In this paper, we propose RICE, an innovative refining scheme for reinforcement learning that incorporates explanation methods to break through the training bottlenecks. The high-level idea of RICE is to construct a new initial state distribution that combines both the default initial states and critical states identified through explanation methods, thereby encouraging the agent to explore from the mixed initial states. Through careful design, we can theoretically guarantee that our refining scheme has a tighter sub-optimality bound. We evaluate RICE in various popular RL environments and real-world applications. The results demonstrate that RICE significantly outperforms existing refining schemes in enhancing agent performance.
- Abstract(参考訳): 深層強化学習(DRL)は、現実世界の応用においてますます重要な役割を担っている。
しかし、複雑なタスク、特にスパース報酬に最適なDRLエージェントを得ることは、依然として大きな課題である。
DRL剤の訓練は、さらなる進歩を伴わずにボトルネックに陥ることがしばしばある。
本稿では,訓練ボトルネックを突破するための説明手法を取り入れた強化学習のための革新的精錬手法であるRICEを提案する。
RICEの高レベルな考え方は、デフォルトの初期状態と説明方法で識別された臨界状態の両方を組み合わせた新しい初期状態分布を構築し、エージェントが混合初期状態から探索することを奨励することである。
慎重に設計することで、我々の精製方式がより厳密な準最適境界を持つことを理論的に保証できる。
様々なRL環境と実世界のアプリケーションでRICEを評価する。
その結果, RICEは, エージェント性能の向上において, 既存の精製方式よりも大幅に優れていた。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A
Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。
DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文 参考訳(メタデータ) (2024-02-24T23:25:35Z) - Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。
IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文 参考訳(メタデータ) (2023-11-03T19:03:20Z) - When Learning Is Out of Reach, Reset: Generalization in Autonomous
Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。
この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。
提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文 参考訳(メタデータ) (2023-03-30T17:59:26Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。