論文の概要: Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2301.10886v4
- Date: Fri, 7 Jul 2023 04:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:43:47.004162
- Title: Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における探索のための自己報酬の自動生成
- Authors: Mingqi Yuan, Bo Li, Xin Jin, Wenjun Zeng
- Abstract要約: 本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
- 参考スコア(独自算出の注目度): 64.8463574294237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AIRS: Automatic Intrinsic Reward Shaping that intelligently and
adaptively provides high-quality intrinsic rewards to enhance exploration in
reinforcement learning (RL). More specifically, AIRS selects shaping function
from a predefined set based on the estimated task return in real-time,
providing reliable exploration incentives and alleviating the biased objective
problem. Moreover, we develop an intrinsic reward toolkit to provide efficient
and reliable implementations of diverse intrinsic reward approaches. We test
AIRS on various tasks of MiniGrid, Procgen, and DeepMind Control Suite.
Extensive simulation demonstrates that AIRS can outperform the benchmarking
schemes and achieve superior performance with simple architecture.
- Abstract(参考訳): 本稿では,強化学習(RL)における探索を強化するために,知的かつ適応的に高品質な固有報酬を提供する自動固有逆整形法を提案する。
より具体的には、AIRSは、推定されたタスクリターンに基づいて予め定義されたセットから、リアルタイムにシェーピング機能を選択し、信頼性の高い探索インセンティブを提供し、バイアスのある客観的問題を緩和する。
さらに,多様なインセンティブインセンティブアプローチの効率的かつ信頼性の高い実装を実現するためのインセンティブインセンティブインセンティブツールキットを開発した。
我々は、MiniGrid、Procgen、DeepMind Control Suiteといった様々なタスクでAIRSをテストする。
拡張シミュレーションは、airsがベンチマークスキームを上回ることができ、単純なアーキテクチャで優れたパフォーマンスを達成することを実証する。
関連論文リスト
- Deep Reinforcement Learning with Hybrid Intrinsic Reward Model [50.53705050673944]
内在的な報酬形成は、ハード探索とスパース・リワードの環境を解決するための一般的なアプローチとして現れている。
故意融合戦略を通じてハイブリッドな内因性報酬を作成するためのフレームワークであるHIRE(Hybrid Intrinsic Reward)を紹介する。
論文 参考訳(メタデータ) (2025-01-22T04:22:13Z) - MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Regularity as Intrinsic Reward for Free Play [24.29379265146469]
本稿では,本質的な強化学習のための新たな報奨信号として正規性を提案する。
Intrinsic Reward (RaIR) として正規性を一般化した定式化により,モデルベース強化学習内での運用が可能となった。
論文 参考訳(メタデータ) (2023-12-03T18:18:44Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。