Fugu-MT 論文翻訳(概要): DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

論文の概要: DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

arxiv url: http://arxiv.org/abs/2603.08145v1
Date: Mon, 09 Mar 2026 09:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.731102
Title: DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding
Title（参考訳）: DARC: リスク制約付きデコードによる診断認識アライメント
Authors: Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu,
Abstract要約: 本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。 DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
参考スコア（独自算出の注目度）: 59.16244104797919
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference-based alignment methods (e.g., RLHF, DPO) typically optimize a single scalar objective, implicitly averaging over heterogeneous human preferences. In practice, systematic annotator and user-group disagreement makes mean-reward maximization brittle and susceptible to proxy over-optimization. We propose **Disagreement-Aware Alignment via Risk-Constrained Decoding (DARC)**, a retraining-free inference-time method that frames response selection as distributionally robust, risk-sensitive decision making. Given multiple preference samples or scalable disagreement proxies, DARC reranks candidates by maximizing a *KL-robust (entropic)* satisfaction objective, and provides simple deployment controls that cap or penalize the corresponding entropic risk premium relative to the mean, enabling explicit risk budgets without retraining. We provide theoretical characterization linking this decoding rule to principled pessimism and KL-based distributionally robust optimization. Experiments on alignment benchmarks show that DARC reduces disagreement and tail risk while maintaining competitive average quality under noisy, heterogeneous feedback.
Abstract（参考訳）: 嗜好に基づくアライメント手法(例えば、RLHF、DPO)は、通常、1つのスカラー目的を最適化し、異質な人間の嗜好よりも暗黙的に平均化する。実際には、体系的なアノテータとユーザグループの不一致は、平均回帰最大化の脆さを招き、プロキシ過剰最適化の影響を受ける。リスク制約付き復号法(DARC)*は、応答選択を分布的に堅牢で、リスクに敏感な意思決定とみなすリトレーニング不要な推論時間法である。複数の選好サンプルやスケーラブルな不一致プロキシが与えられた場合、DARCは*KL-robust(エントロピー)*満足度目標を最大化することで候補を再評価し、対応するエントロピーリスクプレミアムを平均に対してカプセル化またはペナルティ化するシンプルな展開制御を提供し、再トレーニングせずに明確なリスク予算を可能にする。我々は、この復号規則を原理的悲観主義とKLに基づく分布論的ロバストな最適化に結びつける理論的特徴付けを提供する。アライメントベンチマークの実験では、DARCはノイズの多い不均一なフィードバックの下で競争平均品質を維持しながら、不一致と尾のリスクを低減する。

論文の概要: DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

関連論文リスト