論文の概要: Redeeming Intrinsic Rewards via Constrained Optimization
- arxiv url: http://arxiv.org/abs/2211.07627v1
- Date: Mon, 14 Nov 2022 18:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 16:27:02.923538
- Title: Redeeming Intrinsic Rewards via Constrained Optimization
- Title(参考訳): 制約付き最適化による内在的報酬の軽減
- Authors: Eric Chen, Zhang-Wei Hong, Joni Pajarinen, Pulkit Agrawal
- Abstract要約: 最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
- 参考スコア(独自算出の注目度): 17.203887958936168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art reinforcement learning (RL) algorithms typically use random
sampling (e.g., $\epsilon$-greedy) for exploration, but this method fails in
hard exploration tasks like Montezuma's Revenge. To address the challenge of
exploration, prior works incentivize the agent to visit novel states using an
exploration bonus (also called an intrinsic reward or curiosity). Such methods
can lead to excellent results on hard exploration tasks but can suffer from
intrinsic reward bias and underperform when compared to an agent trained using
only task rewards. This performance decrease occurs when an agent seeks out
intrinsic rewards and performs unnecessary exploration even when sufficient
task reward is available. This inconsistency in performance across tasks
prevents the widespread use of intrinsic rewards with RL algorithms. We propose
a principled constrained policy optimization procedure that automatically tunes
the importance of the intrinsic reward: it suppresses the intrinsic reward when
exploration is unnecessary and increases it when exploration is required. This
results in superior exploration that does not require manual tuning to balance
the intrinsic reward against the task reward. Consistent performance gains
across sixty-one ATARI games validate our claim. The code is available at
https://github.com/Improbable-AI/eipo.
- Abstract(参考訳): 最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$\epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索の課題に対処するために、先行研究は、探索ボーナス(内在的な報酬または好奇心とも呼ばれる)を使用して、エージェントに新しい州を訪問するインセンティブを与える。
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
このパフォーマンス低下は、エージェントが本質的な報酬を求め、十分なタスク報酬が得られても不要な探索を行う場合に発生する。
このタスク間のパフォーマンスの不整合は、RLアルゴリズムで固有の報酬を広く使用するのを防ぐ。
提案手法は,探索が不要な場合の本質的な報酬を抑え,探索が必要な場合の報酬を増大させるという,本質的な報酬の重要性を自動的に調整する,原則付き制約付き政策最適化手法を提案する。
この結果、本質的な報酬とタスク報酬のバランスをとるために手動のチューニングを必要としない優れた探索がもたらされる。
ATARIゲーム61ゲームのうち、一貫性のあるパフォーマンス向上は、我々の主張を裏付ける。
コードはhttps://github.com/improbable-ai/eipoで入手できる。
関連論文リスト
- Beyond Optimism: Exploration With Partially Observable Rewards [10.571972176725371]
強化学習(RL)の探索は依然としてオープンな課題である。
本稿では,既存手法の限界を克服し,最適方針への収束を保証する新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-06-20T00:42:02Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Go Beyond Imagination: Maximizing Episodic Reachability with World
Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-08-25T20:30:20Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Sparse Reward Exploration via Novelty Search and Emitters [55.41644538483948]
本稿では,SparsE Reward Exploration via Novelty and Emitters (SERENE)アルゴリズムを提案する。
SERENEは、探索空間の探索と報酬の搾取を2つの交互プロセスに分けている。
メタスケジューラは、2つのプロセス間の交互にグローバルな計算予算を割り当てる。
論文 参考訳(メタデータ) (2021-02-05T12:34:54Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards
for Real-time Strategy Games [0.0]
報酬の少ないゲームで強化学習を使用するトレーニングエージェントは難しい問題である。
エージェントを訓練して,ゲームにおける真の目的を軽率な報酬で最終的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T03:43:06Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。