論文の概要: AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2511.09385v1
- Date: Thu, 13 Nov 2025 01:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.546732
- Title: AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment
- Title(参考訳): AMaPO: 言語モデルアライメントのための適応型Margin-attched Preference Optimization
- Authors: Ruibo Deng, Duanyu Feng, Wenqiang Lei,
- Abstract要約: オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
- 参考スコア(独自算出の注目度): 25.526336903358757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline preference optimization offers a simpler and more stable alternative to RLHF for aligning language models. However, their effectiveness is critically dependent on ranking accuracy, a metric where further gains are highly impactful. This limitation arises from a fundamental problem that we identify and formalize as the Overfitting-Underfitting Dilemma: current margin designs cause models to apply excessive, wasteful gradients to correctly ranked samples (overfitting) while providing insufficient corrective signals for misranked ones (underfitting). To resolve this dilemma, we propose Adaptive Margin-attached Preference Optimization (AMaPO), a simple yet principled algorithm. AMaPO employs an instance-wise adaptive margin, refined by Z-normalization and exponential scaling, which dynamically reallocates learning effort by amplifying gradients for misranked samples and suppressing them for correct ones. Extensive experiments on widely used benchmarks demonstrate that AMaPO not only achieves better ranking accuracy and superior downstream alignment performance, but targeted analysis also confirms that it successfully mitigates the core overfitting and underfitting issues.
- Abstract(参考訳): オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
しかし、それらの効果はランキングの精度に大きく依存している。
この制限は、我々がオーバーフィッティング・アンダーフィッティング・ジレンマ(英語版)として特定し、形式化した根本的な問題から生じる: 現在のマージン設計は、モデルが正しくランク付けされたサンプル(オーバーフィッティング)に対して過度に無駄な勾配を適用させ、間違ったランク付けされたサンプル(アンダーフィッティング)に対して不十分な補正信号を提供する。
このジレンマを解決するために, 単純だが原理化されたアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z-正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習作業を動的に再配置する。
広く使用されているベンチマーク実験により、AMaPOはより優れたランキング精度とより優れた下流アライメント性能を達成するだけでなく、ターゲット分析によってコアオーバーフィッティングとアンダーフィッティングの問題の軽減に成功していることが示された。
関連論文リスト
- Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Adaptive Margin RLHF via Preference over Preferences [44.328333474444214]
好みの強さをモデル化することで、より一般化し、より忠実なアライメントにつながると我々は主張する。
本稿では, DPO-PoP(Direct Preference Optimization, DPO-PoP)の拡張について紹介する。
論文 参考訳(メタデータ) (2025-09-26T19:03:24Z) - Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。
我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。
各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-19T04:31:56Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。