論文の概要: A Statistical Framework for Alignment with Biased AI Feedback
- arxiv url: http://arxiv.org/abs/2602.08259v1
- Date: Mon, 09 Feb 2026 04:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.063236
- Title: A Statistical Framework for Alignment with Biased AI Feedback
- Title(参考訳): バイアスAIフィードバックによるアライメントの統計的枠組み
- Authors: Xintao Xia, Zhiqiu Xia, Linjun Zhang, Zhanrui Cai,
- Abstract要約: AIラベルは、高品質な人間のフィードバックデータセットと比較して体系的にバイアスを受けることができる。
本研究では,不均一なプロンプト応答分布と外部からのフィードバック源に対応する2つの非バイアスアライメント手法を開発した。
感情生成,要約,シングルターン対話に関する実証研究により,提案手法はアライメント効率を著しく向上し,完全に人間ラベル付きデータに基づいて訓練されたオラクルに近い性能を回復することを示した。
- 参考スコア(独自算出の注目度): 20.653424560119554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern alignment pipelines are increasingly replacing expensive human preference labels with evaluations from large language models (LLM-as-Judge). However, AI labels can be systematically biased compared to high-quality human feedback datasets. In this paper, we develop two debiased alignment methods within a general framework that accommodates heterogeneous prompt-response distributions and external human feedback sources. Debiased Direct Preference Optimization (DDPO) augments standard DPO with a residual-based correction and density-ratio reweighting to mitigate systematic bias, while retaining DPO's computational efficiency. Debiased Identity Preference Optimization (DIPO) directly estimates human preference probabilities without imposing a parametric reward model. We provide theoretical guarantees for both methods: DDPO offers a practical and computationally efficient solution for large-scale alignment, whereas DIPO serves as a robust, statistically optimal alternative that attains the semiparametric efficiency bound. Empirical studies on sentiment generation, summarization, and single-turn dialogue demonstrate that the proposed methods substantially improve alignment efficiency and recover performance close to that of an oracle trained on fully human-labeled data.
- Abstract(参考訳): 現代のアライメントパイプラインは、大きな言語モデル(LLM-as-Judge)の評価により、高価な人間の嗜好ラベルを置き換える傾向にある。
しかし、AIラベルは、高品質な人間のフィードバックデータセットと比較して体系的にバイアスを受けることができる。
本稿では,不均一なプロンプト応答分布と外部からのフィードバック源に対応する一般的な枠組みの中で,2つの非バイアスアライメント手法を開発する。
Debiased Direct Preference Optimization (DDPO)は、DPOの計算効率を維持しつつ、系統的バイアスを軽減するために、残差ベースの補正と密度比の再重み付けにより標準DPOを増強する。
Debiased Identity Preference Optimization (DIPO)は、パラメトリック報酬モデルを導入することなく、直接人間の嗜好確率を推定する。
DDPOは大規模アライメントのための実用的で計算的に効率的なソリューションを提供するのに対し、DIPOは半パラメトリック効率境界に達する頑健で統計的に最適な代替手段として機能する。
感情生成,要約,シングルターン対話に関する実証研究により,提案手法はアライメント効率を著しく向上し,完全に人間ラベル付きデータに基づいて訓練されたオラクルに近い性能を回復することを示した。
関連論文リスト
- Provably avoiding over-optimization in Direct Preference Optimization without knowing the data distribution [47.604070468150844]
優先学習において、よく知られた過最適化問題を緩和するために、単段階直接選好最適化のようなアルゴリズムPEPOを導入する。
PEPOは、不整合データサブセットに基づいて訓練された嗜好最適化ポリシーのアンサンブルを通じて悲観的を達成する。
論文 参考訳(メタデータ) (2026-02-05T22:31:07Z) - DeDPO: Debiased Direct Preference Optimization for Diffusion Models [13.068043495097378]
コスト効率のよい合成AIフィードバックによって注釈付けされたラベルなしペアの大きなコーパスで、限られた人間のデータを増やす半教師付きフレームワークを提案する。
本稿では, 因果推定から脱バイアス推定手法をDPOの目的に一意に統合した脱バイアスDPO(Debiased DPO)を提案する。
実験により、DeDPOは合成ラベリング手法のバリエーションに頑健であり、完全に人間のラベル付きデータに基づいて訓練されたモデルの理論的上限を超え、時折適合する性能を達成することが示されている。
論文 参考訳(メタデータ) (2026-02-05T21:11:00Z) - Latent Collective Preference Optimization: A General Framework for Robust LLM Alignment [7.1259212876994695]
雑音データから潜在集団コンセンサスを学習するためにLCPO(Latent Collective Preference Optimization)を導入する。
本実験はLCPOの汎用フレームワークとしての有効性を実証し、4つの最先端アライメントアルゴリズムを一貫して強化した。
Mistral と Llama 3 モデルに適用すると、LCPO を拡張した手法は AlpacaEval 2 と Arena-Hard でかなりの利得を達成し、両方のベンチマークで最大 7.0 % 改善した。
論文 参考訳(メタデータ) (2025-09-29T01:17:49Z) - Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling [13.917799959981185]
RLHF(Reinforcement Learning from Human Feedback)の代替として、DAA(Direct Alignment Algorithms)が登場した。
これらの手法は、モデルが基準ポリシーから逸脱する過度な最適化の影響を受けやすく、トレーニングが進むにつれて性能が低下する。
本稿では,オフラインDAAの過度最適化問題を軽減するために,新しい重要サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-10T10:45:26Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。