論文の概要: On Monotonicity in AI Alignment
- arxiv url: http://arxiv.org/abs/2506.08998v1
- Date: Tue, 10 Jun 2025 17:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:44.992612
- Title: On Monotonicity in AI Alignment
- Title(参考訳): AIアライメントにおけるモノトニック性について
- Authors: Gilles Bareilles, Julien Fageot, Lê-Nguyên Hoang, Peva Blanchard, Wassim Bouaziz, Sébastien Rouault, El-Mahdi El-Mhamdi,
- Abstract要約: 本稿では、一般比較に基づく選好学習フレームワークにおける(非)単調性の根本原因について検討する。
穏やかな仮定の下では、そのような方法が局所対単調性(英語版)と呼ばれるものを満たすことが証明される。
また,モノトニティの形式化の花束を提供し,その保証に十分な条件を特定し,学習モデルがモノトニティ違反にどのように影響するかを評価するためのツールボックスを提供する。
- 参考スコア(独自算出の注目度): 10.244128221542228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparison-based preference learning has become central to the alignment of AI models with human preferences. However, these methods may behave counterintuitively. After empirically observing that, when accounting for a preference for response $y$ over $z$, the model may actually decrease the probability (and reward) of generating $y$ (an observation also made by others), this paper investigates the root causes of (non) monotonicity, for a general comparison-based preference learning framework that subsumes Direct Preference Optimization (DPO), Generalized Preference Optimization (GPO) and Generalized Bradley-Terry (GBT). Under mild assumptions, we prove that such methods still satisfy what we call local pairwise monotonicity. We also provide a bouquet of formalizations of monotonicity, and identify sufficient conditions for their guarantee, thereby providing a toolbox to evaluate how prone learning models are to monotonicity violations. These results clarify the limitations of current methods and provide guidance for developing more trustworthy preference learning algorithms.
- Abstract(参考訳): 比較に基づく嗜好学習は、AIモデルと人間の嗜好の整合の中心となっている。
しかし、これらの方法は反故意に振る舞うことがある。
本稿では, 直接選好最適化(DPO), 一般化選好最適化(GPO), 一般化Bradley-Terry(GBT)を仮定した一般比較に基づく選好学習フレームワークにおいて, 単調性(非単調性)の根本原因について検討した。
穏やかな仮定の下では、そのような方法が局所対単調性(英語版)と呼ばれるものを満たすことが証明される。
また,モノトニティの形式化の花束を提供し,その保証に十分な条件を特定し,学習モデルがモノトニティ違反にどのように影響するかを評価するためのツールボックスを提供する。
これらの結果は、現在の手法の限界を明らかにし、より信頼性の高い選好学習アルゴリズムを開発するためのガイダンスを提供する。
関連論文リスト
- Learning Parametric Distributions from Samples and Preferences [19.879505582147807]
選好に基づくM推定器は、サンプルのみのM推定器よりも分散性が高いことを示す。
我々は,$mathcalO (1/n)$ -- $Theta (1/sqrtn)$よりも大幅に改善された$mathcalO (1/n)$ -- の推定誤差スケーリングを実現する推定器を提案する。
論文 参考訳(メタデータ) (2025-05-29T15:33:43Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Learning from negative feedback, or positive feedback or both [21.95277469346728]
ポジティブなフィードバックとネガティブなフィードバックから学習を分離する新しいアプローチを導入する。
重要な貢献は、ネガティブなフィードバックだけで安定した学習を示すことです。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Approximate Bayesian inference from noisy likelihoods with Gaussian
process emulated MCMC [0.24275655667345403]
ガウス過程(GP)を用いた対数様関数をモデル化する。
主な方法論的革新は、正確なメトロポリス・ハスティングス(MH)サンプリングが行う進歩をエミュレートするためにこのモデルを適用することである。
得られた近似サンプリング器は概念的には単純で、試料効率が高い。
論文 参考訳(メタデータ) (2021-04-08T17:38:02Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。