論文の概要: Take Goodhart Seriously: Principled Limit on General-Purpose AI Optimization
- arxiv url: http://arxiv.org/abs/2510.02840v1
- Date: Fri, 03 Oct 2025 09:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.336715
- Title: Take Goodhart Seriously: Principled Limit on General-Purpose AI Optimization
- Title(参考訳): Goodhartを真剣に考える - 汎用AI最適化の原則的限界
- Authors: Antoine Maier, Aude Maier, Tom David,
- Abstract要約: 近似、推定、最適化の誤差は、意図した目的から体系的に逸脱することを保証すると論じる。
汎用AIシステムの最適化には原則的な制限が必要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common but rarely examined assumption in machine learning is that training yields models that actually satisfy their specified objective function. We call this the Objective Satisfaction Assumption (OSA). Although deviations from OSA are acknowledged, their implications are overlooked. We argue, in a learning-paradigm-agnostic framework, that OSA fails in realistic conditions: approximation, estimation, and optimization errors guarantee systematic deviations from the intended objective, regardless of the quality of its specification. Beyond these technical limitations, perfectly capturing and translating the developer's intent, such as alignment with human preferences, into a formal objective is practically impossible, making misspecification inevitable. Building on recent mathematical results, absent a mathematical characterization of these gaps, they are indistinguishable from those that collapse into Goodhart's law failure modes under strong optimization pressure. Because the Goodhart breaking point cannot be located ex ante, a principled limit on the optimization of General-Purpose AI systems is necessary. Absent such a limit, continued optimization is liable to push systems into predictable and irreversible loss of control.
- Abstract(参考訳): 機械学習においてよく検討されるがまれな仮定は、トレーニングがその特定の目的関数を実際に満足するモデルを生成することである。
私たちはこれをObjective Satisfaction Assumption (OSA)と呼びます。
OSAからの逸脱は認めているが、その影響は見過ごされている。
我々は、学習パラダイムに依存しないフレームワークにおいて、OSAは現実的な条件で失敗する:近似、推定、最適化エラーは、仕様の品質に関わらず、意図した目的から体系的な逸脱を保証する。
これらの技術的な制限を超えて、人間の好みとの整合性などの開発者の意図を形式的な目的に完全にキャプチャし、翻訳することは事実上不可能であり、不特定は避けられない。
最近の数学的結果に基づいて、これらのギャップの数学的特徴を欠いているが、強い最適化圧力の下でグッドハートの法則障害モードに崩壊したものとは区別がつかない。
Goodhartのブレークポイントは外部のアンテを特定できないため、汎用AIシステムの最適化に関する原則的な制限が必要である。
このような制限がなければ、継続的な最適化は、システムが予測可能で不可逆的な制御損失に陥る可能性がある。
関連論文リスト
- From Data to Uncertainty Sets: a Machine Learning Approach [5.877778007271621]
我々は、堅牢な最適化を活用し、機械学習モデルの出力の不確実性に対する制約を保護する。
我々は違反の可能性を強く保証する。
合成計算実験では、この手法は他の手法よりも1桁小さい半径を持つ不確実性集合を必要とする。
論文 参考訳(メタデータ) (2025-03-04T01:30:28Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch [19.03141646688652]
我々は、人間のAIエージェントに対する信念である心の理論を基礎として、公式な説明的枠組みを開発する。
ユーザからの期待を推測するために,特定報酬を用いた対話型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T19:43:37Z) - Decision-Focused Learning with Directional Gradients [1.2363103948638432]
そこで我々は,予測最適化フレームワークとして,摂動勾配損失(PG損失)と呼ばれる,決定を意識した新たなサロゲート損失のファミリーを提案する。
通常、断片的に一定かつ不連続な元の決定損失とは異なり、新しいPG損失はリプシッツ連続であり、凹函数の違いである。
我々は,PG損失が,基礎モデルが不明確である場合に,既存の提案よりも実質上優れていることを示す数値的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T18:14:28Z) - A Learning-Based Optimal Uncertainty Quantification Method and Its
Application to Ballistic Impact Problems [1.713291434132985]
本稿では、入力(または事前)測度が部分的に不完全であるシステムに対する最適(最大および無限)不確実性境界について述べる。
本研究では,不確実性最適化問題に対する学習基盤の枠組みを実証する。
本手法は,工学的実践における性能証明と安全性のためのマップ構築に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:30:53Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Uncertainty-aware Remaining Useful Life predictor [57.74855412811814]
有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産の運用期間を推定する問題である。
本研究では,Deep Gaussian Processes (DGPs) を,前述の制限に対する解決策と捉える。
アルゴリズムの性能はNASAの航空機エンジン用N-CMAPSSデータセットで評価される。
論文 参考訳(メタデータ) (2021-04-08T08:50:44Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。