論文の概要: Adaptive Sample Scheduling for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.17252v1
- Date: Sun, 08 Jun 2025 10:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.827783
- Title: Adaptive Sample Scheduling for Direct Preference Optimization
- Title(参考訳): 直接選好最適化のための適応サンプルスケジューリング
- Authors: Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang,
- Abstract要約: DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
- 参考スコア(独自算出の注目度): 37.75208455935495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as an effective approach for aligning large language models (LLMs) with human preferences. However, its performance is highly dependent on the quality of the underlying human preference data. To address this bottleneck, prior work has explored various data selection strategies, but these methods often overlook the impact of the evolving states of the language model during the DPO process. %including active querying, response pair selection, and data pre-selection. In this paper, we introduce a novel problem: Sample Scheduling for DPO, which aims to dynamically and adaptively schedule training samples based on the model's evolving states throughout preference optimization. To solve this problem, we propose SamS, an efficient and effective algorithm that adaptively selects samples in each training batch based on the LLM's learning feedback to maximize the potential generalization performance. Notably, without modifying the core DPO algorithm, simply integrating SamS significantly improves performance across tasks, with minimal additional computational overhead. This work points to a promising new direction for improving LLM alignment through more effective utilization of fixed preference datasets.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)と人間の嗜好を整合させる効果的なアプローチとして登場した。
しかし、その性能は、基礎となる人間の嗜好データの品質に大きく依存している。
このボトルネックに対処するために、先行研究は様々なデータ選択戦略を探求してきたが、これらの手法はDPOプロセス中の言語モデルの進化状態の影響をしばしば見落としている。
%, アクティブクエリ, 応答ペア選択, データの事前選択を含む。
本稿では, DPO のサンプルスケジューリング問題を紹介する。 DPO は, モデルの進化状態に基づいて, 好みの最適化を通じて, 動的かつ適応的にトレーニングサンプルをスケジュールすることを目的としている。
この問題を解決するために,LLMの学習フィードバックに基づいて各トレーニングバッチ中のサンプルを適応的に選択し,潜在的な一般化性能を最大化する,効率的かつ効率的なアルゴリズムSamSを提案する。
特に、コアDPOアルゴリズムを変更することなく、SamSを統合するだけでタスク間のパフォーマンスが大幅に向上し、計算オーバーヘッドは最小限に抑えられる。
この研究は、固定された嗜好データセットをより効果的に活用することで、LCMアライメントを改善するための有望な新しい方向性を示している。
関連論文リスト
- ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。