論文の概要: $f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences
- arxiv url: http://arxiv.org/abs/2310.06794v1
- Date: Tue, 10 Oct 2023 17:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:26:07.435357
- Title: $f$-Policy Gradients: A General Framework for Goal Conditioned RL using
$f$-Divergences
- Title(参考訳): $f$-policy Gradients:$f$-Divergencesを使ったゴール条件付きRLのための一般的なフレームワーク
- Authors: Siddhant Agarwal, Ishan Durugkar, Peter Stone, Amy Zhang
- Abstract要約: 本稿では,$f$-Policy Gradientsという新たな探索方法を紹介する。
問題となるグリッドワールドにおける標準ポリシー手法と比較して,$f$-PGの方が優れた性能を示す。
- 参考スコア(独自算出の注目度): 44.91973620442546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goal-Conditioned Reinforcement Learning (RL) problems often have access to
sparse rewards where the agent receives a reward signal only when it has
achieved the goal, making policy optimization a difficult problem. Several
works augment this sparse reward with a learned dense reward function, but this
can lead to sub-optimal policies if the reward is misaligned. Moreover, recent
works have demonstrated that effective shaping rewards for a particular problem
can depend on the underlying learning algorithm. This paper introduces a novel
way to encourage exploration called $f$-Policy Gradients, or $f$-PG. $f$-PG
minimizes the f-divergence between the agent's state visitation distribution
and the goal, which we show can lead to an optimal policy. We derive gradients
for various f-divergences to optimize this objective. Our learning paradigm
provides dense learning signals for exploration in sparse reward settings. We
further introduce an entropy-regularized policy optimization objective, that we
call $state$-MaxEnt RL (or $s$-MaxEnt RL) as a special case of our objective.
We show that several metric-based shaping rewards like L2 can be used with
$s$-MaxEnt RL, providing a common ground to study such metric-based shaping
rewards with efficient exploration. We find that $f$-PG has better performance
compared to standard policy gradient methods on a challenging gridworld as well
as the Point Maze and FetchReach environments. More information on our website
https://agarwalsiddhant10.github.io/projects/fpg.html.
- Abstract(参考訳): 目標条件強化学習(rl)問題はしばしば、エージェントが目標を達成したときのみ報酬信号を受信し、ポリシー最適化が困難な問題となる、スパース報酬にアクセスする。
いくつかの研究は、このスパース報酬を学習された高密度報酬関数で増強するが、報酬が不一致であれば、準最適ポリシーにつながる可能性がある。
さらに、近年の研究では、特定の問題に対する効果的な整形報酬は、基礎となる学習アルゴリズムに依存することが示されている。
本稿では,$f$-policygradients または $f$-pg と呼ばれる探索を促進する新しい方法を紹介する。
$f$-PG はエージェントの状態訪問分布と目標との f 分割を最小化します。
この目的を最適化するために、様々なf-divergencesの勾配を導出する。
我々の学習パラダイムは、スパース報酬設定での探索のための密集した学習信号を提供する。
さらに, エントロピー正規化ポリシー最適化の目的についても紹介し, 目的の特別な場合としてstate$-maxent rl (または$s$-maxent rl) と呼ぶ。
l2のようなメトリクスベースのシェーピング報酬のいくつかは$s$-maxent rlで使用することができ、効率的な探索でメトリクスベースのシェーピング報酬を研究するための共通の基盤を提供する。
問題のあるグリッドワールドやPoint Maze、FetchReach環境における標準ポリシー勾配メソッドと比較して、$f$-PGの方がパフォーマンスがよいことが分かりました。
詳細はhttps://agarwalsiddhant10.github.io/projects/fpg.htmlを参照。
関連論文リスト
- Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - To the Max: Reinventing Reward in Reinforcement Learning [1.5498250598583487]
強化学習(RL)では、異なる報酬関数が同じ最適ポリシーを定義することができるが、結果として学習性能は大きく異なる。
我々は、エージェントが累積報酬ではなく最大値を最適化するtextitmax-reward RLを紹介した。
実験では,Gymnasium-Roboticsの2つの目標到達環境における最大回帰RLアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-02-02T12:29:18Z) - Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning [26.067411894141863]
報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T12:36:09Z) - Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning [17.239062061431646]
本稿では,強化学習(RL)における報酬非依存探索について検討する。
S$状態、$A$作用、および水平長$H$を持つ有限水平不均一決定過程を考える。
我々のアルゴリズムは任意の数の報酬関数に対して$varepsilon$精度を得ることができる。
論文 参考訳(メタデータ) (2023-04-14T17:46:49Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。