論文の概要: Adaptive Sample Scheduling for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.17252v1
- Date: Sun, 08 Jun 2025 10:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.827783
- Title: Adaptive Sample Scheduling for Direct Preference Optimization
- Title(参考訳): 直接選好最適化のための適応サンプルスケジューリング
- Authors: Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang,
- Abstract要約: DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
- 参考スコア(独自算出の注目度): 37.75208455935495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as an effective approach for aligning large language models (LLMs) with human preferences. However, its performance is highly dependent on the quality of the underlying human preference data. To address this bottleneck, prior work has explored various data selection strategies, but these methods often overlook the impact of the evolving states of the language model during the DPO process. %including active querying, response pair selection, and data pre-selection. In this paper, we introduce a novel problem: Sample Scheduling for DPO, which aims to dynamically and adaptively schedule training samples based on the model's evolving states throughout preference optimization. To solve this problem, we propose SamS, an efficient and effective algorithm that adaptively selects samples in each training batch based on the LLM's learning feedback to maximize the potential generalization performance. Notably, without modifying the core DPO algorithm, simply integrating SamS significantly improves performance across tasks, with minimal additional computational overhead. This work points to a promising new direction for improving LLM alignment through more effective utilization of fixed preference datasets.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)と人間の嗜好を整合させる効果的なアプローチとして登場した。
しかし、その性能は、基礎となる人間の嗜好データの品質に大きく依存している。
このボトルネックに対処するために、先行研究は様々なデータ選択戦略を探求してきたが、これらの手法はDPOプロセス中の言語モデルの進化状態の影響をしばしば見落としている。
%, アクティブクエリ, 応答ペア選択, データの事前選択を含む。
本稿では, DPO のサンプルスケジューリング問題を紹介する。 DPO は, モデルの進化状態に基づいて, 好みの最適化を通じて, 動的かつ適応的にトレーニングサンプルをスケジュールすることを目的としている。
この問題を解決するために,LLMの学習フィードバックに基づいて各トレーニングバッチ中のサンプルを適応的に選択し,潜在的な一般化性能を最大化する,効率的かつ効率的なアルゴリズムSamSを提案する。
特に、コアDPOアルゴリズムを変更することなく、SamSを統合するだけでタスク間のパフォーマンスが大幅に向上し、計算オーバーヘッドは最小限に抑えられる。
この研究は、固定された嗜好データセットをより効果的に活用することで、LCMアライメントを改善するための有望な新しい方向性を示している。
関連論文リスト
- Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap [13.89078939095465]
本稿では,DPOの暗黙的な報酬機構を基盤とした,嗜好データセットの難易度に基づく新たなデータ選択手法を提案する。
このアプローチは、複数のデータセットとアライメントタスクで、5つの強力なベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-06T07:24:14Z) - ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - Model Performance-Guided Evaluation Data Selection for Effective Prompt Optimization [12.683042228674694]
IPOMPは、セマンティッククラスタリングとバウンダリ分析を使用して、代表的で多様なサンプルを選択する2段階のアプローチである。
我々は、IPOMPがSOTAベースラインと比較して、効率を1.6%から5.3%改善し、安定性を少なくとも57%向上させることを示した。
論文 参考訳(メタデータ) (2025-05-15T22:41:30Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。