論文の概要: Murphys Laws of AI Alignment: Why the Gap Always Wins
- arxiv url: http://arxiv.org/abs/2509.05381v1
- Date: Thu, 04 Sep 2025 23:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.483078
- Title: Murphys Laws of AI Alignment: Why the Gap Always Wins
- Title(参考訳): マーフィーのAIアライメントの法則:なぜいつも勝つのか
- Authors: Madhava Gaikwad,
- Abstract要約: 大規模な言語モデルは、人間のフィードバックからの強化学習を通じて、人間の好みに合わせている。
効果はあるものの、これらの手法は繰り返し発生する障害パターン、すなわち報酬のハッキング、薬効、注釈のドリフト、誤一般化を示す。
本稿では、フィードバックに基づくアライメントにおける繰り返し失敗を理解するための統一レンズであるアライメントギャップの概念を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly aligned to human preferences through reinforcement learning from human feedback (RLHF) and related methods such as Direct Preference Optimization (DPO), Constitutional AI, and RLAIF. While effective, these methods exhibit recurring failure patterns i.e., reward hacking, sycophancy, annotator drift, and misgeneralization. We introduce the concept of the Alignment Gap, a unifying lens for understanding recurring failures in feedback-based alignment. Using a KL-tilting formalism, we illustrate why optimization pressure tends to amplify divergence between proxy rewards and true human intent. We organize these failures into a catalogue of Murphys Laws of AI Alignment, and propose the Alignment Trilemma as a way to frame trade-offs among optimization strength, value capture, and generalization. Small-scale empirical studies serve as illustrative support. Finally, we propose the MAPS framework (Misspecification, Annotation, Pressure, Shift) as practical design levers. Our contribution is not a definitive impossibility theorem but a perspective that reframes alignment debates around structural limits and trade-offs, offering clearer guidance for future design.
- Abstract(参考訳): 大規模言語モデルは、人間からのフィードバック(RLHF)と関連するメソッド(DPO)、コンスティチューショナルAI、RLAIF)の強化学習を通じて、人間の嗜好に適合する傾向にある。
効果はあるものの、これらの手法は繰り返し発生する障害パターン、すなわち報酬のハッキング、薬効、注釈のドリフト、誤一般化を示す。
本稿では、フィードバックに基づくアライメントにおける繰り返し失敗を理解するための統一レンズであるアライメントギャップの概念を紹介する。
KL-tiltingフォーマリズムを用いて、最適化圧力がプロキシ報酬と真の人間の意図のばらつきを増幅する理由を説明する。
我々は、これらの失敗をAIアライメントのマーフィス法則のカタログに整理し、最適化強度、値キャプチャ、一般化の間のトレードオフをフレーム化する方法としてアライメント・トリレンマを提案する。
小規模な実証的研究は、実証的な支援として機能する。
最後に,MAPSフレームワーク(ミス仕様,アノテーション,圧力,シフト)を実用的な設計レバーとして提案する。
私たちの貢献は決定的な不合理性定理ではなく、構造的限界とトレードオフに関する議論を整理し、将来の設計に対するより明確なガイダンスを提供するという視点です。
関連論文リスト
- Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。