論文の概要: On Goodhart's law, with an application to value alignment
- arxiv url: http://arxiv.org/abs/2410.09638v1
- Date: Sat, 12 Oct 2024 20:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 09:06:07.715696
- Title: On Goodhart's law, with an application to value alignment
- Title(参考訳): グッドハートの法則について : 値アライメントへの応用
- Authors: El-Mahdi El-Mhamdi, Lê-Nguyên Hoang,
- Abstract要約: 我々は、真の目標と最適化された測度との相違点の尾の分布に批判的に依存していることを証明する。
この結果が、メトリクスに基づいて(かつそうでなければならない)大規模な意思決定とポリシーに与える影響を強調します。
- 参考スコア(独自算出の注目度): 6.445605125467573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ``When a measure becomes a target, it ceases to be a good measure'', this adage is known as {\it Goodhart's law}. In this paper, we investigate formally this law and prove that it critically depends on the tail distribution of the discrepancy between the true goal and the measure that is optimized. Discrepancies with long-tail distributions favor a Goodhart's law, that is, the optimization of the measure can have a counter-productive effect on the goal. We provide a formal setting to assess Goodhart's law by studying the asymptotic behavior of the correlation between the goal and the measure, as the measure is optimized. Moreover, we introduce a distinction between a {\it weak} Goodhart's law, when over-optimizing the metric is useless for the true goal, and a {\it strong} Goodhart's law, when over-optimizing the metric is harmful for the true goal. A distinction which we prove to depend on the tail distribution. We stress the implications of this result to large-scale decision making and policies that are (and have to be) based on metrics, and propose numerous research directions to better assess the safety of such policies in general, and to the particularly concerning case where these policies are automated with algorithms.
- Abstract(参考訳): 「ある測度が目標になると、それは良い測度となる」とすると、この主張は「グッドハートの法則」として知られている。
本稿では、この法則を公式に検討し、真の目標と最適化された測度との相違点の尾の分布に批判的に依存することを証明する。
長い尾の分布を持つ離散性はグッドハートの法則を好んでおり、すなわち、この測度の最適化はゴールに反生産的効果を与える。
我々は,目標と測度との相関関係の漸近的挙動を,測定値の最適化として研究することにより,グッドハートの法則を評価するための公式な設定を提供する。
さらに、計量を過度に最適化しても真の目的には役に立たないグッドハート法則と、計量を過度に最適化するグッドハート法則が真の目標には有害であるグッドハート法則とを区別する。
我々が証明した区別は尾の分布に依存する。
我々は、この結果が、メトリクスに基づいて(かつそうである)大規模な意思決定やポリシーに与える影響を強調し、これらのポリシーの安全性をよりよく評価するための多くの研究指針を提案し、特に、これらのポリシーがアルゴリズムで自動化されている場合について強調する。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Goodhart's Law in Reinforcement Learning [4.998202587873575]
この現象をグッドハートの法則のレンズを用いて研究し、不完全なプロキシの最適化の増大が真の目的に対する性能を低下させると予測する。
本稿では、上記の落とし穴を確実に回避し、理論的に後悔する境界を導出する最適な早期停止法を提案する。
本研究は,報酬の相違による強化学習の理論的研究の基盤となるものである。
論文 参考訳(メタデータ) (2023-10-13T14:35:59Z) - Inference for relative sparsity [0.0]
医学応用においては,不確実性の特徴付けが不可欠であるため,相対的疎度目的関数の推論が重要である。
相対的な空間的目的は不安定で二項作用の場合において無限に推定される不注意な値関数に依存するため、推論は困難である。
これらの課題に対処するため、相対的疎度目標内に重み付けされた信頼地域政策最適化機能を組み込み、適応的相対的疎度ペナルティを実装し、選択後推論のためのサンプル分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-25T17:14:45Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Measurement-based Admission Control in Sliced Networks: A Best Arm
Identification Approach [68.8204255655161]
スライスされたネットワークでは、スライスの共有テナンシは、データフローの適応的な受け入れ制御を必要とする。
一定の信頼度で正しい判断を返すための共同測定・意思決定戦略を考案する。
論文 参考訳(メタデータ) (2022-04-14T12:12:34Z) - Are There Exceptions to Goodhart's Law? On the Moral Justification of Fairness-Aware Machine Learning [14.428360876120333]
公正度対策はグッドハートの法則に特に敏感であると主張する。
公正度尺度の正当性に関する道徳的推論の枠組みを提示する。
論文 参考訳(メタデータ) (2022-02-17T09:26:39Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。