論文の概要: Murphys Laws of AI Alignment: Why the Gap Always Wins
- arxiv url: http://arxiv.org/abs/2509.05381v1
- Date: Thu, 04 Sep 2025 23:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.483078
- Title: Murphys Laws of AI Alignment: Why the Gap Always Wins
- Title(参考訳): マーフィーのAIアライメントの法則:なぜいつも勝つのか
- Authors: Madhava Gaikwad,
- Abstract要約: 大規模な言語モデルは、人間のフィードバックからの強化学習を通じて、人間の好みに合わせている。
効果はあるものの、これらの手法は繰り返し発生する障害パターン、すなわち報酬のハッキング、薬効、注釈のドリフト、誤一般化を示す。
本稿では、フィードバックに基づくアライメントにおける繰り返し失敗を理解するための統一レンズであるアライメントギャップの概念を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly aligned to human preferences through reinforcement learning from human feedback (RLHF) and related methods such as Direct Preference Optimization (DPO), Constitutional AI, and RLAIF. While effective, these methods exhibit recurring failure patterns i.e., reward hacking, sycophancy, annotator drift, and misgeneralization. We introduce the concept of the Alignment Gap, a unifying lens for understanding recurring failures in feedback-based alignment. Using a KL-tilting formalism, we illustrate why optimization pressure tends to amplify divergence between proxy rewards and true human intent. We organize these failures into a catalogue of Murphys Laws of AI Alignment, and propose the Alignment Trilemma as a way to frame trade-offs among optimization strength, value capture, and generalization. Small-scale empirical studies serve as illustrative support. Finally, we propose the MAPS framework (Misspecification, Annotation, Pressure, Shift) as practical design levers. Our contribution is not a definitive impossibility theorem but a perspective that reframes alignment debates around structural limits and trade-offs, offering clearer guidance for future design.
- Abstract(参考訳): 大規模言語モデルは、人間からのフィードバック(RLHF)と関連するメソッド(DPO)、コンスティチューショナルAI、RLAIF)の強化学習を通じて、人間の嗜好に適合する傾向にある。
効果はあるものの、これらの手法は繰り返し発生する障害パターン、すなわち報酬のハッキング、薬効、注釈のドリフト、誤一般化を示す。
本稿では、フィードバックに基づくアライメントにおける繰り返し失敗を理解するための統一レンズであるアライメントギャップの概念を紹介する。
KL-tiltingフォーマリズムを用いて、最適化圧力がプロキシ報酬と真の人間の意図のばらつきを増幅する理由を説明する。
我々は、これらの失敗をAIアライメントのマーフィス法則のカタログに整理し、最適化強度、値キャプチャ、一般化の間のトレードオフをフレーム化する方法としてアライメント・トリレンマを提案する。
小規模な実証的研究は、実証的な支援として機能する。
最後に,MAPSフレームワーク(ミス仕様,アノテーション,圧力,シフト)を実用的な設計レバーとして提案する。
私たちの貢献は決定的な不合理性定理ではなく、構造的限界とトレードオフに関する議論を整理し、将来の設計に対するより明確なガイダンスを提供するという視点です。
関連論文リスト
- Partial Feedback Online Learning [88.27143767009376]
我々は、偏見フィードバックオンライン学習と呼ばれる新しい学習プロトコルについて研究する。
各インスタンスは許容できるラベルのセットを許可するが、学習者は1ラウンドごとに許容できるラベルを1つだけ観察する。
論文 参考訳(メタデータ) (2026-01-29T09:39:11Z) - Failure Modes in Multi-Hop QA: The Weakest Link Law and the Recognition Bottleneck [38.430205063059724]
本稿では,MFAI(Multi-Focus Attention Instruction)を導入した。
システム2推論を利用して、必要な情報を効果的に見つけ、統合する「思考」モデルを実証する。
論文 参考訳(メタデータ) (2026-01-18T17:16:04Z) - Agnostic Learning under Targeted Poisoning: Optimal Rates and the Role of Randomness [13.802167452101909]
以前の研究は、このようなインスタンス標的の毒殺攻撃による最適エラーが$Theta(deta)$とスケールすることを確立した。
最適余剰誤差が $tildeTheta(sqrtdeta)$ であることを示し、Hannekeらによって残された主要な開問題の一つに答える。
論文 参考訳(メタデータ) (2025-06-03T16:53:20Z) - AI Biases as Asymmetries: A Review to Guide Practice [0.0]
バイアスはAIシステムにとって不可欠なものと認識され、バイアスの少ない選択肢よりも好まれる。
AIシステムのエラーバイアス、不平等バイアス、プロセスバイアスの3つの主要な非対称性を識別する。
私たちは、AI開発とアプリケーションのパイプラインの中で、それぞれのタイプのバイアスが良い、悪い、あるいは避けられないであろう場所を強調します。
論文 参考訳(メタデータ) (2025-03-10T13:40:28Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and
Game Theory [70.75605157754771]
ジオデシック・ゲーム・ローカライゼーション(Geodesic and Game Localization, G2L)は,ジオデシック・ゲーム理論によるセマンティック・アライメントと均一なビデオグラウンドティング・フレームワークである。
本研究は,モデルが正しいクロスモーダル表現を学習するための測地距離を利用したモーメント間の相関関係を定量化する。
論文 参考訳(メタデータ) (2023-07-26T16:14:21Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - The price of unfairness in linear bandits with biased feedback [62.25313751895011]
線形帯域フィードバックによる逐次意思決定の問題点について検討する。
その結果,不偏フィードバック下で得られたdT 1/2 log(T) の後悔率よりも最悪の後悔率が高いことがわかった。
興味深いことに、ギャップ依存率によって、問題はバイアスのないものほど難しくない非自明なインスタンスの存在が明らかになる。
論文 参考訳(メタデータ) (2022-03-18T08:03:20Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - Feature Space Targeted Attacks by Statistic Alignment [74.40447383387574]
特徴空間ターゲットは、中間特徴写像を変調して摂動画像を攻撃する。
画素ワイドユークリッド距離の現在の選択は、ソースとターゲットの特徴に不合理に空間整合性制約を課すため、不一致を測定することが疑問視されている。
本稿では,Pair-wise Alignment AttackとGlobal-wise Alignment Attackという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-25T03:46:39Z) - Generalized Negative Correlation Learning for Deep Ensembling [7.569288952340753]
Ensembleアルゴリズムは、多くの機械学習アプリケーションにおいて、最先端のアートパフォーマンスを提供する。
任意の2つの微分可能な損失関数に対する一般化バイアス分散分解を定式化する。
我々は,アンサンブルの多様性を明示的に制御する一般化負相関学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-11-05T16:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。