論文の概要: Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.13055v1
- Date: Fri, 13 Feb 2026 16:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.025519
- Title: Curriculum-DPO++: Direct Preference Optimization via Data and Model Curricula for Text-to-Image Generation
- Title(参考訳): Curriculum-DPO++:テキスト・画像生成のためのデータとモデルキュリキュラによる直接選好最適化
- Authors: Florinel-Alin Croitoru, Vlad Hondru, Radu Tudor Ionescu, Nicu Sebe, Mubarak Shah,
- Abstract要約: 本稿では,画像ペアを困難に整理するCurriculum-DPOを紹介する。
本稿では,訓練の進展に伴い,認知ネットワークの学習能力を動的に向上させることを提案する。
- 参考スコア(独自算出の注目度): 103.29651633424855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). However, neither RLHF nor DPO take into account the fact that learning certain preferences is more difficult than learning other preferences, rendering the optimization process suboptimal. To address this gap in text-to-image generation, we recently proposed Curriculum-DPO, a method that organizes image pairs by difficulty. In this paper, we introduce Curriculum-DPO++, an enhanced method that combines the original data-level curriculum with a novel model-level curriculum. More precisely, we propose to dynamically increase the learning capacity of the denoising network as training advances. We implement this capacity increase via two mechanisms. First, we initialize the model with only a subset of the trainable layers used in the original Curriculum-DPO. As training progresses, we sequentially unfreeze layers until the configuration matches the full baseline architecture. Second, as the fine-tuning is based on Low-Rank Adaptation (LoRA), we implement a progressive schedule for the dimension of the low-rank matrices. Instead of maintaining a fixed capacity, we initialize the low-rank matrices with a dimension significantly smaller than that of the baseline. As training proceeds, we incrementally increase their rank, allowing the capacity to grow until it converges to the same rank value as in Curriculum-DPO. Furthermore, we propose an alternative ranking strategy to the one employed by Curriculum-DPO. Finally, we compare Curriculum-DPO++ against Curriculum-DPO and other state-of-the-art preference optimization approaches on nine benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://github.com/CroitoruAlin/Curriculum-DPO.
- Abstract(参考訳): 人的フィードバック(RLHF)からの強化学習の効果的な代替手段として、直接選好最適化(DPO)が提案されている。
しかし、RLHFやDPOは、特定の選好を学習することが他の選好を学習することよりも困難であるという事実を考慮に入れておらず、最適化プロセスの最適化を最適化する。
テキスト・画像生成におけるこのギャップを解決するために,我々は最近,画像ペアを困難に整理するCurriculum-DPOを提案する。
本稿では,従来のデータレベルのカリキュラムと新しいモデルレベルのカリキュラムを組み合わせた拡張手法であるCurriculum-DPO++を紹介する。
より正確には、訓練が進むにつれて、認知ネットワークの学習能力を動的に向上することを提案する。
この容量増加は2つのメカニズムによって実現される。
まず、元のCurriculum-DPOで使用されるトレーニング可能なレイヤのサブセットのみでモデルを初期化する。
トレーニングが進むにつれて、構成が完全なベースラインアーキテクチャにマッチするまで、シーケンシャルにレイヤを凍結します。
第二に、微調整はLoRA(Lo-Rank Adaptation)に基づいており、低ランク行列の次元の進行スケジュールを実装している。
固定容量を維持する代わりに、低ランク行列をベースラインよりもかなり小さい次元で初期化する。
トレーニングが進むにつれて、段階的にランクが増加し、カリキュラムDPOと同じランク値に収まるまで、キャパシティが拡大します。
さらに,Curriculum-DPOが採用しているものに代わるランキング戦略を提案する。
最後に、Curriculum-DPO++とCurriculum-DPOの9つのベンチマークで比較し、テキストアライメント、美学、人間の嗜好の点で競合する手法よりも優れています。
私たちのコードはhttps://github.com/CroitoruAlin/Curriculum-DPOで公開されています。
関連論文リスト
- APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation [26.371939617653084]
生成レコメンデーションは自動回帰生成プロセスであり、ユーザインタラクション履歴に基づいて、次の項目の離散トークンを予測する。
既存の生成レコメンデーションモデルは、通常、クロスエントロピー損失のようなトークンレベルの可能性目標で訓練される。
標準的なトレーニングでは、推論中にビームサーチが低確率の分岐を産み出すという事実を無視して、地道の歴史が常に利用可能であると仮定している。
論文 参考訳(メタデータ) (2026-03-03T08:29:15Z) - RankPO: Preference Optimization for Job-Talent Matching [7.385902340910447]
大規模言語モデル(LLM)のための2段階トレーニングフレームワークを提案する。
最初の段階では、実際のマッチングルールから構築されたデータセット上でモデルをトレーニングするために、対照的な学習アプローチが使用される。
第2段階では、AIで計算したペアの選好とモデルを整合させるために、直接選好最適化(DPO)にインスパイアされた、新しい選好に基づく微調整手法を導入する。
論文 参考訳(メタデータ) (2025-03-13T10:14:37Z) - Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization [44.008094698200026]
我々はDirect CLIP-Based Optimization (DiCO)と呼ばれる新しいトレーニングパラダイムを提案する。
提案手法は,高い相関性を有する学習可能なキャプション評価器から抽出した報酬モデルを共同で学習し,最適化する。
DiCOは、生成されたキャプションの安定性の向上と品質の向上だけでなく、既存の方法に比べて人間の好みと密接に一致している。
論文 参考訳(メタデータ) (2024-08-26T18:00:33Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、9つのベンチマークにおける最先端の微調整アプローチと比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。