論文の概要: Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer
Value Function
- arxiv url: http://arxiv.org/abs/2211.10550v1
- Date: Sat, 19 Nov 2022 00:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:09:26.083184
- Title: Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer
Value Function
- Title(参考訳): 外値関数の学習によるメタグラデーション強化学習の偏り
- Authors: Cl\'ement Bonnet, Laurence Midgley, Alexandre Laterre
- Abstract要約: メタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。
このバイアスは、メタ学習された割引係数を用いてトレーニングされた批評家を用いて、外的目的の利点を推定することに由来する。
メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図のポリシーを好む原因となる。
- 参考スコア(独自算出の注目度): 69.59204851882643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-gradient Reinforcement Learning (RL) allows agents to self-tune their
hyper-parameters in an online fashion during training. In this paper, we
identify a bias in the meta-gradient of current meta-gradient RL approaches.
This bias comes from using the critic that is trained using the meta-learned
discount factor for the advantage estimation in the outer objective which
requires a different discount factor. Because the meta-learned discount factor
is typically lower than the one used in the outer objective, the resulting bias
can cause the meta-gradient to favor myopic policies. We propose a simple
solution to this issue: we eliminate this bias by using an alternative,
\emph{outer} value function in the estimation of the outer loss. To obtain this
outer value function we add a second head to the critic network and train it
alongside the classic critic, using the outer loss discount factor. On an
illustrative toy problem, we show that the bias can cause catastrophic failure
of current meta-gradient RL approaches, and show that our proposed solution
fixes it. We then apply our method to a more complex environment and
demonstrate that fixing the meta-gradient bias can significantly improve
performance.
- Abstract(参考訳): meta-gradient reinforcement learning(rl)は、トレーニング中にエージェントがハイパーパラメータをオンライン形式で自己調整できるようにする。
本稿では,現在のメタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。
このバイアスは、異なる割引係数を必要とする外的目的において有利な推定のためにメタ学習割引係数を用いて訓練された批評家の使用に由来する。
メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図ポリシーを好む原因となる。
本稿では,外損失推定における代替関数であるemph{outer}値関数を用いることで,このバイアスを排除し,この問題に対する簡単な解を提案する。
この外値関数を得るためには、第2のヘッドを批評家ネットワークに追加し、外損失割引係数を用いて古典的批評家と一緒に訓練する。
具体的玩具問題では、このバイアスが現在のメタグラディエントRLアプローチの破滅的な失敗を引き起こすことを示し、提案手法がそれを修正することを示す。
提案手法をより複雑な環境に適用し,メタ勾配バイアスの修正によって性能が著しく向上することを示す。
関連論文リスト
- Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - An Investigation of the Bias-Variance Tradeoff in Meta-Gradients [53.28925387487846]
ヘッセン推定は常にバイアスを追加し、メタ階調推定に分散を加えることもできる。
提案手法は, 乱れたバックプロパゲーションとサンプリング補正から生じるバイアスとばらつきのトレードオフについて検討する。
論文 参考訳(メタデータ) (2022-09-22T20:33:05Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning [16.824515577815696]
グラディエントベースメタRL(GMRL)は、2段階の最適化手順を維持する手法である。
GMRLで採用されている既存のメタグラディエント推定器は、実際にテキストバイアスを受けていることを示す。
我々は,刑法外学習や低バイアス推定器などの他の手法が一般のGMRLアルゴリズムの勾配バイアスの解消にどのように役立つかを示すため,Iterated Prisoner's Dilemma と Atari のゲームで実験を行った。
論文 参考訳(メタデータ) (2021-12-31T11:56:40Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。