論文の概要: Goodhart's Law in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.09144v1
- Date: Fri, 13 Oct 2023 14:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 12:40:44.762679
- Title: Goodhart's Law in Reinforcement Learning
- Title(参考訳): 強化学習におけるグッドハートの法則
- Authors: Jacek Karwowski, Oliver Hayman, Xingjian Bai, Klaus Kiendlhofer,
Charlie Griffin, Joar Skalse
- Abstract要約: この現象をグッドハートの法則のレンズを用いて研究し、不完全なプロキシの最適化の増大が真の目的に対する性能を低下させると予測する。
本稿では、上記の落とし穴を確実に回避し、理論的に後悔する境界を導出する最適な早期停止法を提案する。
本研究は,報酬の相違による強化学習の理論的研究の基盤となるものである。
- 参考スコア(独自算出の注目度): 4.998202587873575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implementing a reward function that perfectly captures a complex task in the
real world is impractical. As a result, it is often appropriate to think of the
reward function as a proxy for the true objective rather than as its
definition. We study this phenomenon through the lens of Goodhart's law, which
predicts that increasing optimisation of an imperfect proxy beyond some
critical point decreases performance on the true objective. First, we propose a
way to quantify the magnitude of this effect and show empirically that
optimising an imperfect proxy reward often leads to the behaviour predicted by
Goodhart's law for a wide range of environments and reward functions. We then
provide a geometric explanation for why Goodhart's law occurs in Markov
decision processes. We use these theoretical insights to propose an optimal
early stopping method that provably avoids the aforementioned pitfall and
derive theoretical regret bounds for this method. Moreover, we derive a
training method that maximises worst-case reward, for the setting where there
is uncertainty about the true reward function. Finally, we evaluate our early
stopping method experimentally. Our results support a foundation for a
theoretically-principled study of reinforcement learning under reward
misspecification.
- Abstract(参考訳): 現実世界の複雑なタスクを完璧にキャプチャする報酬関数の実装は非現実的です。
結果として、報酬関数をその定義よりも真の目的のプロキシとして考えるのが適切であることが多い。
この現象をグッドハートの法則のレンズを通して研究し、ある臨界点を超えて不完全なプロキシの最適化が真の目的の性能を低下させると予測する。
まず,この効果の大きさを定量化し,不完全な代行報酬の最適化が,グッドハートの法則によって予測される幅広い環境や報奨関数の振る舞いにつながることを実証的に示す方法を提案する。
次に、なぜグッドハートの法則がマルコフ決定過程で起こるのかを幾何学的に説明する。
これらの理論的洞察を用いて、上記の落とし穴を確実に回避し、理論的後悔境界を導出する最適な早期停止法を提案する。
さらに,真の報酬関数が不確実な状況において,最悪の報酬を最大化する訓練手法を考案した。
最後に,早期停止法を実験的に評価した。
本研究は,報酬の相違による強化学習の理論的研究の基盤となるものである。
関連論文リスト
- On Goodhart's law, with an application to value alignment [6.445605125467573]
我々は、真の目標と最適化された測度との相違点の尾の分布に批判的に依存していることを証明する。
この結果が、メトリクスに基づいて(かつそうでなければならない)大規模な意思決定とポリシーに与える影響を強調します。
論文 参考訳(メタデータ) (2024-10-12T20:26:08Z) - Understanding Reward Ambiguity Through Optimal Transport Theory in
Inverse Reinforcement Learning [4.8951183832371]
逆強化学習(IRL)は、観察された専門家の行動から基礎となる報酬関数を推論することを目的としている。
現在の手法は高次元問題に直面することが多く、幾何学的基礎が欠如している。
本稿では,これらの課題に対する新たな視点を提供するために,最適輸送(OT)理論を利用する。
論文 参考訳(メタデータ) (2023-10-18T15:42:53Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T15:55:38Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Inverse Reinforcement Learning via Matching of Optimality Profiles [2.561053769852449]
準最適あるいは不均一な性能の実証から報酬関数を学習するアルゴリズムを提案する。
提案手法は,報酬関数を最適化するためのポリシーが,報酬関数の適合に使用する実演よりも優れるような報酬関数を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-11-18T13:23:43Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial
Imitation Learning [52.50288418639075]
本稿では,非政治的生成的対人模倣学習の事例について考察する。
学習した報酬関数を局所的なリプシッツ連続関数に強制することは、その手法がうまく動作するための正準非条件であることを示す。
論文 参考訳(メタデータ) (2020-06-28T20:55:31Z) - On Computation and Generalization of Generative Adversarial Imitation
Learning [134.17122587138897]
GAIL(Generative Adversarial Learning)は、シーケンシャルな意思決定ポリシーを学習するための強力で実践的なアプローチである。
本稿ではGAILの理論的性質について考察する。
論文 参考訳(メタデータ) (2020-01-09T00:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。