論文の概要: The Strong, Weak and Benign Goodhart's law. An independence-free and paradigm-agnostic formalisation
- arxiv url: http://arxiv.org/abs/2505.23445v1
- Date: Thu, 29 May 2025 13:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.881622
- Title: The Strong, Weak and Benign Goodhart's law. An independence-free and paradigm-agnostic formalisation
- Title(参考訳): 独立フリーでパラダイムに依存しない形式化
- Authors: Adrien Majka, El-Mahdi El-Mhamdi,
- Abstract要約: 代用指標と目的との結合がグッドハートの法則に及ぼす影響について検討する。
以上の結果から,光の尾方向目標と光の尾方向不一致の場合,依存はグッドハートの効果の性質を変えるものではないことが示唆された。
軽テールゴールと重テール一致の場合において,過最適化が重テール一致率に逆比例する例を示す。
- 参考スコア(独自算出の注目度): 2.677995462843075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Goodhart's law is a famous adage in policy-making that states that ``When a measure becomes a target, it ceases to be a good measure''. As machine learning models and the optimisation capacity to train them grow, growing empirical evidence reinforced the belief in the validity of this law without however being formalised. Recently, a few attempts were made to formalise Goodhart's law, either by categorising variants of it, or by looking at how optimising a proxy metric affects the optimisation of an intended goal. In this work, we alleviate the simplifying independence assumption, made in previous works, and the assumption on the learning paradigm made in most of them, to study the effect of the coupling between the proxy metric and the intended goal on Goodhart's law. Our results show that in the case of light tailed goal and light tailed discrepancy, dependence does not change the nature of Goodhart's effect. However, in the light tailed goal and heavy tailed discrepancy case, we exhibit an example where over-optimisation occurs at a rate inversely proportional to the heavy tailedness of the discrepancy between the goal and the metric. %
- Abstract(参考訳): グッドハートの法則(グッドハートのほう、英: Goodhart's law)は、政策立案において「ある措置が目標になると、それは良い措置となる」という有名な格言である。
機械学習モデルとそれらを訓練するための最適化能力が成長するにつれて、実証的な証拠が成長し、形式化されることなく、この法律の有効性に対する信念が強化された。
近年、グッドハートの法則を定式化する試みがいくつか行われ、その変種を分類したり、プロキシ計量の最適化が目的とするゴールの最適化にどのように影響するかを調べたりしている。
本研究は,従来の研究でなされた独立性の仮定と,その大部分でなされた学習パラダイムに対する仮定を緩和し,プロキシメトリックと目的とする目標との結合がグッドハートの法則に与える影響について検討する。
以上の結果から,光の尾方向目標と光の尾方向不一致の場合,依存はグッドハートの効果の性質を変えるものではないことが示唆された。
しかし, 狭義の目標と重み付き不一致の場合において, 目標と計量との相違の重み付けに逆比例して過最適化が発生する例を示す。
%であった。
関連論文リスト
- On Goodhart's law, with an application to value alignment [6.445605125467573]
我々は、真の目標と最適化された測度との相違点の尾の分布に批判的に依存していることを証明する。
この結果が、メトリクスに基づいて(かつそうでなければならない)大規模な意思決定とポリシーに与える影響を強調します。
論文 参考訳(メタデータ) (2024-10-12T20:26:08Z) - Fairness-Accuracy Trade-Offs: A Causal Perspective [58.06306331390586]
我々は、初めて因果レンズから公正性と正確性の間の張力を分析する。
因果的制約を強制することは、しばしば人口集団間の格差を減少させることを示す。
因果制約付きフェアラーニングのための新しいニューラルアプローチを導入する。
論文 参考訳(メタデータ) (2024-05-24T11:19:52Z) - Goodhart's Law in Reinforcement Learning [4.998202587873575]
この現象をグッドハートの法則のレンズを用いて研究し、不完全なプロキシの最適化の増大が真の目的に対する性能を低下させると予測する。
本稿では、上記の落とし穴を確実に回避し、理論的に後悔する境界を導出する最適な早期停止法を提案する。
本研究は,報酬の相違による強化学習の理論的研究の基盤となるものである。
論文 参考訳(メタデータ) (2023-10-13T14:35:59Z) - Are There Exceptions to Goodhart's Law? On the Moral Justification of Fairness-Aware Machine Learning [14.428360876120333]
公正度対策はグッドハートの法則に特に敏感であると主張する。
公正度尺度の正当性に関する道徳的推論の枠組みを提示する。
論文 参考訳(メタデータ) (2022-02-17T09:26:39Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z) - On the Moral Justification of Statistical Parity [0.0]
公正性の重要かつしばしば無視される側面は、道徳的な観点からある公正度測定をいかに正当化するかという問題である。
本研究の目的は,独立の統計的公正性基準に関連する道徳的側面を考察することである。
論文 参考訳(メタデータ) (2020-11-04T00:26:15Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。