論文の概要: How Well Can Preference Optimization Generalize Under Noisy Feedback?
- arxiv url: http://arxiv.org/abs/2510.01458v1
- Date: Wed, 01 Oct 2025 20:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.871331
- Title: How Well Can Preference Optimization Generalize Under Noisy Feedback?
- Title(参考訳): ノイズフィードバック下での予測最適化の一般化はどの程度可能か?
- Authors: Shawn Im, Yixuan Li,
- Abstract要約: 優先最適化は、人間のフィードバックに基づいて、好ましくない応答と好ましくない応答を区別するモデルを訓練する。
既存の研究の多くはノイズのないフィードバックを前提としているが、これは人間の判断に固有の誤りや矛盾のため非現実的である。
本稿では,雑音フィードバックが優先最適化に与える影響を考察し,これらの条件下での一般化保証を提供する。
- 参考スコア(独自算出の注目度): 20.1450312837334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) advance their capabilities, aligning these models with human preferences has become crucial. Preference optimization, which trains models to distinguish between preferred and non-preferred responses based on human feedback, has become a crucial component for aligning LLMs. However, most existing works assume noise-free feedback, which is unrealistic due to the inherent errors and inconsistencies in human judgments. This paper addresses the impact of noisy feedback on preference optimization, providing generalization guarantees under these conditions. In particular, we consider noise models that correspond to common real-world sources of noise, such as mislabeling and uncertainty. Unlike traditional analyses that assume convergence, our work focuses on finite-step preference optimization, offering new insights that are more aligned with practical LLM training. We describe how generalization decays with different types of noise across levels of noise rates based on the preference data distribution and number of samples. Our analysis for noisy preference learning applies to a broad family of preference optimization losses such as DPO, IPO, SLiC, etc. Empirical validation on contemporary LLMs confirms the practical relevance of our findings, offering valuable insights for developing AI systems that align with human preferences.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれて、これらのモデルを人間の好みに合わせることが重要になっている。
ヒトのフィードバックに基づいて、好ましくない応答と好ましくない応答の区別をモデルに訓練する選好最適化は、LLMの整合に欠かせない要素となっている。
しかし、既存の研究の多くはノイズのないフィードバックを前提としており、これは人間の判断に固有の誤りや矛盾のため非現実的である。
本稿では,雑音フィードバックが優先最適化に与える影響を考察し,これらの条件下での一般化保証を提供する。
特に、誤ラベリングや不確実性など、一般的な実世界のノイズ源に対応するノイズモデルを考える。
収束を仮定する従来の分析とは異なり、我々の研究は有限ステップの選好最適化に焦点を当て、実用的なLLMトレーニングとより整合した新しい洞察を提供する。
本稿では, 優先データ分布とサンプル数に基づいて, 雑音のレベルによって異なる種類のノイズで一般化が減衰する様子を述べる。
ノイズの多い選好学習の分析は、DPO、IPO、SLiCなどの幅広い選好最適化損失のファミリーに適用できる。
現代のLLMに関する実証的検証は、我々の発見の実践的妥当性を確認し、人間の好みに合わせてAIシステムを開発する上で貴重な洞察を提供する。
関連論文リスト
- On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization [31.741110625305186]
本稿では、優先最適化のパラダイムを用いて、モダリティバイアス問題を解決することを提案する。
具体的には、まず摂動を導入し、特定のモダリティの情報量を減らすことでデータセットを構築する。
自動構築したデータにおける避けられないノイズに対処するために、ノイズロバストな平均絶対誤差と直接選好最適化における二項交叉エントロピーを組み合わせる。
論文 参考訳(メタデータ) (2025-03-23T04:00:11Z) - One Goal, Many Challenges: Robust Preference Optimization Amid Content-Aware and Multi-Source Noise [1.0249620437941]
本稿では,CNRPO(Content-Aware Noise-Resilient Preference Optimization)を提案する。
バックドア攻撃機構を利用して、1つのモデル内で様々なノイズ源を効率よく学習し制御する。
論文 参考訳(メタデータ) (2025-03-16T00:22:00Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。