論文の概要: Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals
- arxiv url: http://arxiv.org/abs/2508.07638v1
- Date: Mon, 11 Aug 2025 05:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.95976
- Title: Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals
- Title(参考訳): Beyond Single: 細粒度選好信号を用いたLCMアライメントのためのデータ選択原理
- Authors: Jia Zhang, Yao Liu, Chen-Xi Zhang, Yi Liu, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
- 参考スコア(独自算出の注目度): 46.58760908162995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Large Language Models (LLMs) with diverse human values requires moving beyond a single holistic "better-than" preference criterion. While collecting fine-grained, aspect-specific preference data is more reliable and scalable, existing methods like Direct Preference Optimization (DPO) struggle with the severe noise and conflicts inherent in such aggregated datasets. In this paper, we tackle this challenge from a data-centric perspective. We first derive the Direct Multi-Preference Optimization (DMPO) objective, and uncover a key Preference Divergence (PD) term that quantifies inter-aspect preference conflicts. Instead of using this term for direct optimization, we leverage it to formulate a novel, theoretically-grounded data selection principle. Our principle advocates for selecting a subset of high-consensus data-identified by the most negative PD values-for efficient DPO training. We prove the optimality of this strategy by analyzing the loss bounds of the DMPO objective in the selection problem. To operationalize our approach, we introduce practical methods of PD term estimation and length bias mitigation, thereby proposing our PD selection method. Evaluation on the UltraFeedback dataset with three varying conflict levels shows that our simple yet effective strategy achieves over 10% relative improvement against both the standard holistic preference and a stronger oracle using aggregated preference signals, all while boosting training efficiency and obviating the need for intractable holistic preference annotating, unlocking the potential of robust LLM alignment via fine-grained preference signals.
- Abstract(参考訳): さまざまな人的価値を持つ大規模言語モデル(LLM)の調整には、単一の全体論的な"ベタベース"な選好基準を越える必要がある。
きめ細かいアスペクト固有の好みデータ収集は信頼性が高く、スケーラブルだが、ダイレクト優先度最適化(DPO)のような既存の手法では、このような集約されたデータセットに固有の厳しいノイズやコンフリクトに悩まされている。
本稿では,データ中心の観点から,この課題に取り組む。
まず、DMPO(Direct Multi-Preference Optimization)の目的を導出し、アスペクト間選好競合を定量化する主要な選好偏差(PD)項を明らかにする。
直接最適化のためにこの用語を使う代わりに、我々はこれを利用して、理論上の新しいデータ選択原理を定式化します。
本原理では, DPO トレーニングにおいて最も負の PD 値によって同定された高契約データの部分集合を選択することを提唱する。
選択問題におけるDMPO目標の損失境界を解析することにより,この戦略の最適性を証明する。
提案手法を運用するために,PD項推定と長さバイアス緩和の実践的手法を導入し,PD選択法を提案する。
コンフリクトレベルが3つあるUltraFeedbackデータセットの評価によれば、我々の単純で効果的な戦略は、トレーニング効率を向上し、難解な総合的選好アノテートの必要性を回避し、きめ細かい選好信号によって堅牢なLCMアライメントの可能性を解放しつつ、標準の全体的選好と強大な託宣の両方に対して10%以上の相対的な改善を達成している。
関連論文リスト
- Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap [13.89078939095465]
本稿では,DPOの暗黙的な報酬機構を基盤とした,嗜好データセットの難易度に基づく新たなデータ選択手法を提案する。
このアプローチは、複数のデータセットとアライメントタスクで、5つの強力なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-06T07:24:14Z) - Less is More: Improving LLM Alignment via Preference Data Selection [46.9163802899686]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なアプローチである。
DPOトレーニングにおけるデータセットキュレーションのための新たなマージン最大化原理を提案する。
提案手法は反復的DPOにシームレスに拡張され,約3%の改善が達成され,25%のオンラインデータが得られた。
論文 参考訳(メタデータ) (2025-02-20T13:45:17Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。