論文の概要: Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment
- arxiv url: http://arxiv.org/abs/2602.04909v1
- Date: Wed, 04 Feb 2026 00:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.531686
- Title: Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment
- Title(参考訳): どこに重要かを学ぶ:ロバストな選好アライメントのための幾何学的アンカリング
- Authors: Youngjae Cho, Jongsuk Kim, Ji-Hoon Kim,
- Abstract要約: 本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
- 参考スコア(独自算出の注目度): 6.428964221372943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) and related methods align large language models from pairwise preferences by regularizing updates against a fixed reference policy. As the policy drifts, a static reference, however, can become increasingly miscalibrated, leading to distributional mismatch and amplifying spurious preference signals under noisy supervision. Conversely, reference-free variants avoid mismatch but often suffer from unconstrained reward drift. We propose Geometric Anchor Preference Optimization (GAPO), which replaces the fixed reference with a dynamic, geometry-aware anchor: an adversarial local perturbation of the current policy within a small radius that serves as a pessimistic baseline. This anchor enables an adaptive reweighting mechanism, modulating the importance of each preference pair based on its local sensitivity. We further introduce the Anchor Gap, the reward discrepancy between the policy and its anchor, and show under smoothness conditions that it approximates worst-case local margin degradation. Optimizing a logistic objective weighted by this gap downweights geometrically brittle instances while emphasizing robust preference signals. Across diverse noise settings, GAPO consistently improves robustness while matching or improving performance on standard LLM alignment and reasoning benchmarks.
- Abstract(参考訳): 直接選好最適化(DPO)および関連する手法は、固定参照ポリシーに対して更新を規則化することにより、ペアの選好から大きな言語モデルを整列させる。
しかし、政策のドリフトが進むにつれて、静的参照はますます誤解されるようになり、分散ミスマッチとノイズの多い監視下での急激な選好信号の増幅につながる。
逆に、参照なしの変種はミスマッチを避けるが、しばしば制限されない報酬の漂流に悩まされる。
本稿では,固定基準を動的な幾何学的アンカーに置き換えるGAPO(Geometric Anchor Preference Optimization)を提案する。
このアンカーは適応的な再重み付け機構を可能にし、各選好ペアの重要性をその局所感度に基づいて調節する。
さらに、アンカーギャップ(Anchor Gap)という政策とアンカーの報酬差について紹介し、最悪の局地的マージン劣化を近似する滑らかな条件下で示す。
このギャップダウンウェイトによって重み付けられたロジスティック目標の最適化は、ロバストな選好信号を強調しながら、幾何学的に不安定なインスタンスを最適化する。
様々なノイズ設定にまたがって、GAPOは標準LLMアライメントと推論ベンチマークのパフォーマンスを一致または改善しながら、一貫してロバスト性を改善する。
関連論文リスト
- Alignment-Aware Model Adaptation via Feedback-Guided Optimization [27.93864970404945]
ファインチューニングは、ファンデーションモデルを下流タスクに適応するための主要なメカニズムである。
本稿では,外部アライメント信号からのフィードバックをポリシー段階の正規化を通じて統合するアライメント対応微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T16:03:16Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Latent Adversarial Regularization for Offline Preference Optimization [21.271580780278473]
本稿では,ポリシーモデルの内部表現と参照モデルとの相違を罰し,潜在空間の正則化を実現するGANPOを紹介する。
複数のモデルアーキテクチャとタスクにわたる実験は、潜在空間の正規化から一貫した改善を示している。
論文 参考訳(メタデータ) (2026-01-29T18:21:57Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment [25.526336903358757]
オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
論文 参考訳(メタデータ) (2025-11-12T14:51:59Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。