論文の概要: Murphys Laws of AI Alignment: Why the Gap Always Wins
- arxiv url: http://arxiv.org/abs/2509.05381v3
- Date: Mon, 15 Sep 2025 06:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 13:19:47.943402
- Title: Murphys Laws of AI Alignment: Why the Gap Always Wins
- Title(参考訳): マーフィーのAIアライメントの法則:なぜいつも勝つのか
- Authors: Madhava Gaikwad,
- Abstract要約: 我々は,不特定性の下での人間のフィードバックからの強化学習について検討した。
フィードバックがバイアス強度エプシロンを持つ文脈のごく一部に偏りがある場合、任意の学習アルゴリズムは2つの可能な「真の」報酬関数を区別するために指数関数的に多くのサンプルexp(n*alpha*epsilon2)を必要とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning from human feedback under misspecification. Sometimes human feedback is systematically wrong on certain types of inputs, like a broken compass that points the wrong way in specific regions. We prove that when feedback is biased on a fraction alpha of contexts with bias strength epsilon, any learning algorithm needs exponentially many samples exp(n*alpha*epsilon^2) to distinguish between two possible "true" reward functions that differ only on these problematic contexts. However, if you can identify where feedback is unreliable (a "calibration oracle"), you can focus your limited questions there and overcome the exponential barrier with just O(1/(alpha*epsilon^2)) queries. This quantifies why alignment is hard: rare edge cases with subtly biased feedback create an exponentially hard learning problem unless you know where to look. The gap between what we optimize (proxy from human feedback) and what we want (true objective) is fundamentally limited by how common the problematic contexts are (alpha), how wrong the feedback is there (epsilon), and how much the true objectives disagree there (gamma). Murphy's Law for AI alignment: the gap always wins unless you actively route around misspecification.
- Abstract(参考訳): 我々は,不特定性の下での人間のフィードバックからの強化学習について検討した。
場合によっては、特定の領域で間違った方向を向いているコンパスが壊れているような、ある種の入力に対して、人間のフィードバックが体系的に間違っている場合もあります。
バイアス強度エプシロンを持つ文脈のごく一部にフィードバックが偏った場合、任意の学習アルゴリズムは指数関数的に多くのサンプル exp(n*alpha*epsilon^2) を必要とし、これらの問題のある文脈でのみ異なる2つの「真の」報酬関数を区別する。
しかし、フィードバックが信頼できない場所("キャリブレーション・オラクル")を特定できれば、限られた質問に集中して、O(1/(alpha*epsilon^2))クエリだけで指数関数的障壁を克服できます。
微妙にバイアスのかかったフィードバックを持つ稀なエッジケースは、どこを見るべきかを知らない限り、指数関数的にハードラーニングの問題を生み出します。
最適化するもの(人間からのフィードバックからプロキシ)と私たちが望むもの(真の目的)のギャップは、問題のあるコンテキストがどの程度一般的であるか(アルファ)、フィードバックがどれほど間違っているか(エプシロン)、真の目的がどの程度矛盾しているか(ガンマ)によって根本的に制限されます。
Murphy氏のAIアライメントに関する法則: ミス特定を積極的に回避しない限り、ギャップは常に勝利します。
関連論文リスト
- Partial Feedback Online Learning [88.27143767009376]
我々は、偏見フィードバックオンライン学習と呼ばれる新しい学習プロトコルについて研究する。
各インスタンスは許容できるラベルのセットを許可するが、学習者は1ラウンドごとに許容できるラベルを1つだけ観察する。
論文 参考訳(メタデータ) (2026-01-29T09:39:11Z) - Failure Modes in Multi-Hop QA: The Weakest Link Law and the Recognition Bottleneck [38.430205063059724]
本稿では,MFAI(Multi-Focus Attention Instruction)を導入した。
システム2推論を利用して、必要な情報を効果的に見つけ、統合する「思考」モデルを実証する。
論文 参考訳(メタデータ) (2026-01-18T17:16:04Z) - Agnostic Learning under Targeted Poisoning: Optimal Rates and the Role of Randomness [13.802167452101909]
以前の研究は、このようなインスタンス標的の毒殺攻撃による最適エラーが$Theta(deta)$とスケールすることを確立した。
最適余剰誤差が $tildeTheta(sqrtdeta)$ であることを示し、Hannekeらによって残された主要な開問題の一つに答える。
論文 参考訳(メタデータ) (2025-06-03T16:53:20Z) - AI Biases as Asymmetries: A Review to Guide Practice [0.0]
バイアスはAIシステムにとって不可欠なものと認識され、バイアスの少ない選択肢よりも好まれる。
AIシステムのエラーバイアス、不平等バイアス、プロセスバイアスの3つの主要な非対称性を識別する。
私たちは、AI開発とアプリケーションのパイプラインの中で、それぞれのタイプのバイアスが良い、悪い、あるいは避けられないであろう場所を強調します。
論文 参考訳(メタデータ) (2025-03-10T13:40:28Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - G2L: Semantically Aligned and Uniform Video Grounding via Geodesic and
Game Theory [70.75605157754771]
ジオデシック・ゲーム・ローカライゼーション(Geodesic and Game Localization, G2L)は,ジオデシック・ゲーム理論によるセマンティック・アライメントと均一なビデオグラウンドティング・フレームワークである。
本研究は,モデルが正しいクロスモーダル表現を学習するための測地距離を利用したモーメント間の相関関係を定量化する。
論文 参考訳(メタデータ) (2023-07-26T16:14:21Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - The price of unfairness in linear bandits with biased feedback [62.25313751895011]
線形帯域フィードバックによる逐次意思決定の問題点について検討する。
その結果,不偏フィードバック下で得られたdT 1/2 log(T) の後悔率よりも最悪の後悔率が高いことがわかった。
興味深いことに、ギャップ依存率によって、問題はバイアスのないものほど難しくない非自明なインスタンスの存在が明らかになる。
論文 参考訳(メタデータ) (2022-03-18T08:03:20Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - Feature Space Targeted Attacks by Statistic Alignment [74.40447383387574]
特徴空間ターゲットは、中間特徴写像を変調して摂動画像を攻撃する。
画素ワイドユークリッド距離の現在の選択は、ソースとターゲットの特徴に不合理に空間整合性制約を課すため、不一致を測定することが疑問視されている。
本稿では,Pair-wise Alignment AttackとGlobal-wise Alignment Attackという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-25T03:46:39Z) - Generalized Negative Correlation Learning for Deep Ensembling [7.569288952340753]
Ensembleアルゴリズムは、多くの機械学習アプリケーションにおいて、最先端のアートパフォーマンスを提供する。
任意の2つの微分可能な損失関数に対する一般化バイアス分散分解を定式化する。
我々は,アンサンブルの多様性を明示的に制御する一般化負相関学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-11-05T16:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。