論文の概要: 2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2504.07856v1
- Date: Thu, 10 Apr 2025 15:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:21.417114
- Title: 2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization
- Title(参考訳): 2D-Curri-DPO:直接選好最適化のための2次元カリキュラム学習
- Authors: Mengyang Li, Zhong Zhang,
- Abstract要約: 2D-Curri-DPOは、Prompt Complexity(PC)とPairwise Distinguishability(Pairwise Distinguishability)を共同でモデル化する2次元カリキュラムを採用した新しいフレームワークである。
我々の手法はUltraFeedbackのような挑戦的なテストセットに対して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 3.674552982566341
- License:
- Abstract: Aligning large language models with human preferences is crucial for their safe deployment. While Direct Preference Optimization (DPO) offers an efficient alternative to reinforcement learning from human feedback, traditional DPO methods are limited by their reliance on single preference pairs. Recent work like Curriculum-DPO integrates multiple pairs using a one-dimensional difficulty curriculum based on pairwise distinguishability (PD), but overlooks the complexity of the input prompt itself. To address this, we propose 2D-Curri-DPO, a novel framework employing a two-dimensional curriculum that jointly models Prompt Complexity (PC) and Pairwise Distinguishability. This framework introduces dual difficulty metrics to quantify prompt semantic complexity and response preference clarity, defines a curriculum strategy space encompassing multiple selectable strategies for task adaptation, and incorporates a KL-divergence-based adaptive mechanism for dynamic reference model updates to enhance training stability. Comprehensive experiments demonstrate that 2D-Curri-DPO significantly outperforms standard DPO and prior curriculum methods across multiple benchmarks, including MT-Bench, Vicuna Bench, and WizardLM. Our approach achieves state-of-the-art performance on challenging test sets like UltraFeedback. Ablation studies confirm the benefits of the 2D structure and adaptive mechanisms, while analysis provides guidance for strategy selection. These findings demonstrate that effective alignment requires modeling both prompt complexity and pairwise distinguishability, establishing adaptive, multi-dimensional curriculum learning as a powerful and interpretable new paradigm for preference-based language model optimization.
- Abstract(参考訳): 人間の好みで大きな言語モデルを調整することは、安全なデプロイメントに不可欠です。
直接選好最適化(DPO)は、人間のフィードバックからの強化学習に代わる効果的な代替手段を提供するが、従来のDPO手法は単一の選好ペアに依存して制限される。
最近のCurriculum-DPOのような研究は、ペアワイド識別可能性(PD)に基づく1次元の難易度カリキュラムを用いて複数のペアを統合するが、入力プロンプト自体の複雑さを見落としている。
2D-Curri-DPOは,Pairwise Distinguishability(PC)とPrompt Complexity(PC)を併用した2次元カリキュラムを用いた新しいフレームワークである。
このフレームワークは、意味的複雑性と応答選好の定量化のための二重困難度メトリクスを導入し、タスク適応のための複数の選択可能な戦略を含むカリキュラム戦略空間を定義し、動的参照モデル更新のためのKL分割に基づく適応機構を導入し、トレーニング安定性を向上させる。
総合的な実験により、2D-Curri-DPOは、MT-Bench、Vicuna Bench、WizardLMなど、複数のベンチマークで標準DPOおよび事前のカリキュラム手法よりも大幅に優れていた。
我々の手法はUltraFeedbackのような挑戦的なテストセットに対して最先端のパフォーマンスを実現する。
アブレーション研究は2次元構造と適応機構の利点を確認し、分析は戦略選択のためのガイダンスを提供する。
これらの結果は, 適応型多次元カリキュラム学習を, 言語モデル最適化のための強力かつ解釈可能な新しいパラダイムとして確立するために, 迅速な複雑性とペアの識別可能性の両方をモデル化する必要があることを示唆している。
関連論文リスト
- A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process [45.632012199451275]
In-context Learning(ICL)は、インプット・アウトプット・ペアを通じてマッピングを学習する、数発の学習パラダイムである。
既存の作業は大規模にラベル付けされたサポートセットに大きく依存しているため、現実的なシナリオでは必ずしも実現できない。
言語モデルに基づく決定点プロセス(LM-DPP)を導入し、最適選択のための未ラベルインスタンスの不確かさと多様性を同時に検討する。
論文 参考訳(メタデータ) (2024-08-04T18:08:15Z) - Planning Like Human: A Dual-process Framework for Dialogue Planning [31.995557540062553]
大規模言語モデル(LLM)における対話計画を強化するための2段階対話計画フレームワークを提案する。
心理学における二重過程理論に触発されて、直感的(高速)と分析的(スロー)の2つの思考様式を具現化した枠組みを提案する。
実験により,DPDPが高品質な対話と操作効率を両立し,既存手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-08T06:52:47Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。
これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文 参考訳(メタデータ) (2023-02-11T03:35:13Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。