論文の概要: DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding
- arxiv url: http://arxiv.org/abs/2603.08145v1
- Date: Mon, 09 Mar 2026 09:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.731102
- Title: DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding
- Title(参考訳): DARC: リスク制約付きデコードによる診断認識アライメント
- Authors: Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu,
- Abstract要約: 本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
- 参考スコア(独自算出の注目度): 59.16244104797919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based alignment methods (e.g., RLHF, DPO) typically optimize a single scalar objective, implicitly averaging over heterogeneous human preferences. In practice, systematic annotator and user-group disagreement makes mean-reward maximization brittle and susceptible to proxy over-optimization. We propose **Disagreement-Aware Alignment via Risk-Constrained Decoding (DARC)**, a retraining-free inference-time method that frames response selection as distributionally robust, risk-sensitive decision making. Given multiple preference samples or scalable disagreement proxies, DARC reranks candidates by maximizing a *KL-robust (entropic)* satisfaction objective, and provides simple deployment controls that cap or penalize the corresponding entropic risk premium relative to the mean, enabling explicit risk budgets without retraining. We provide theoretical characterization linking this decoding rule to principled pessimism and KL-based distributionally robust optimization. Experiments on alignment benchmarks show that DARC reduces disagreement and tail risk while maintaining competitive average quality under noisy, heterogeneous feedback.
- Abstract(参考訳): 嗜好に基づくアライメント手法(例えば、RLHF、DPO)は、通常、1つのスカラー目的を最適化し、異質な人間の嗜好よりも暗黙的に平均化する。
実際には、体系的なアノテータとユーザグループの不一致は、平均回帰最大化の脆さを招き、プロキシ過剰最適化の影響を受ける。
リスク制約付き復号法(DARC)*は、応答選択を分布的に堅牢で、リスクに敏感な意思決定とみなすリトレーニング不要な推論時間法である。
複数の選好サンプルやスケーラブルな不一致プロキシが与えられた場合、DARCは*KL-robust(エントロピー)*満足度目標を最大化することで候補を再評価し、対応するエントロピーリスクプレミアムを平均に対してカプセル化またはペナルティ化するシンプルな展開制御を提供し、再トレーニングせずに明確なリスク予算を可能にする。
我々は、この復号規則を原理的悲観主義とKLに基づく分布論的ロバストな最適化に結びつける理論的特徴付けを提供する。
アライメントベンチマークの実験では、DARCはノイズの多い不均一なフィードバックの下で競争平均品質を維持しながら、不一致と尾のリスクを低減する。
関連論文リスト
- Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。