論文の概要: Murphys Laws of AI Alignment: Why the Gap Always Wins
- arxiv url: http://arxiv.org/abs/2509.05381v3
- Date: Mon, 15 Sep 2025 06:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.943402
- Title: Murphys Laws of AI Alignment: Why the Gap Always Wins
- Title(参考訳): マーフィーのAIアライメントの法則:なぜいつも勝つのか
- Authors: Madhava Gaikwad,
- Abstract要約: 我々は,不特定性の下での人間のフィードバックからの強化学習について検討した。
フィードバックがバイアス強度エプシロンを持つ文脈のごく一部に偏りがある場合、任意の学習アルゴリズムは2つの可能な「真の」報酬関数を区別するために指数関数的に多くのサンプルexp(n*alpha*epsilon2)を必要とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning from human feedback under misspecification. Sometimes human feedback is systematically wrong on certain types of inputs, like a broken compass that points the wrong way in specific regions. We prove that when feedback is biased on a fraction alpha of contexts with bias strength epsilon, any learning algorithm needs exponentially many samples exp(n*alpha*epsilon^2) to distinguish between two possible "true" reward functions that differ only on these problematic contexts. However, if you can identify where feedback is unreliable (a "calibration oracle"), you can focus your limited questions there and overcome the exponential barrier with just O(1/(alpha*epsilon^2)) queries. This quantifies why alignment is hard: rare edge cases with subtly biased feedback create an exponentially hard learning problem unless you know where to look. The gap between what we optimize (proxy from human feedback) and what we want (true objective) is fundamentally limited by how common the problematic contexts are (alpha), how wrong the feedback is there (epsilon), and how much the true objectives disagree there (gamma). Murphy's Law for AI alignment: the gap always wins unless you actively route around misspecification.
- Abstract(参考訳): 我々は,不特定性の下での人間のフィードバックからの強化学習について検討した。
場合によっては、特定の領域で間違った方向を向いているコンパスが壊れているような、ある種の入力に対して、人間のフィードバックが体系的に間違っている場合もあります。
バイアス強度エプシロンを持つ文脈のごく一部にフィードバックが偏った場合、任意の学習アルゴリズムは指数関数的に多くのサンプル exp(n*alpha*epsilon^2) を必要とし、これらの問題のある文脈でのみ異なる2つの「真の」報酬関数を区別する。
しかし、フィードバックが信頼できない場所("キャリブレーション・オラクル")を特定できれば、限られた質問に集中して、O(1/(alpha*epsilon^2))クエリだけで指数関数的障壁を克服できます。
微妙にバイアスのかかったフィードバックを持つ稀なエッジケースは、どこを見るべきかを知らない限り、指数関数的にハードラーニングの問題を生み出します。
最適化するもの(人間からのフィードバックからプロキシ)と私たちが望むもの(真の目的)のギャップは、問題のあるコンテキストがどの程度一般的であるか(アルファ)、フィードバックがどれほど間違っているか(エプシロン)、真の目的がどの程度矛盾しているか(ガンマ)によって根本的に制限されます。
Murphy氏のAIアライメントに関する法則: ミス特定を積極的に回避しない限り、ギャップは常に勝利します。
関連論文リスト
- Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。