論文の概要: Reinforcing Diffusion Models by Direct Group Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.08425v1
- Date: Thu, 09 Oct 2025 16:40:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.205295
- Title: Reinforcing Diffusion Models by Direct Group Preference Optimization
- Title(参考訳): 直接群選好最適化による拡散モデルの強化
- Authors: Yihong Luo, Tianyang Hu, Jing Tang,
- Abstract要約: グループ選好最適化(DGPO)は、グループ内のサンプルの相対情報を利用するグループレベルの選好から直接学習する。
その結果、DGPOは既存の最先端手法の約20倍の速度でトレーニングを行い、ドメイン内および外部メトリクスの報酬よりも優れたパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 19.195805549362074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reinforcement learning methods such as Group Relative Preference Optimization (GRPO) have significantly enhanced Large Language Models, adapting them to diffusion models remains challenging. In particular, GRPO demands a stochastic policy, yet the most cost-effective diffusion samplers are based on deterministic ODEs. Recent work addresses this issue by using inefficient SDE-based samplers to induce stochasticity, but this reliance on model-agnostic Gaussian noise leads to slow convergence. To resolve this conflict, we propose Direct Group Preference Optimization (DGPO), a new online RL algorithm that dispenses with the policy-gradient framework entirely. DGPO learns directly from group-level preferences, which utilize relative information of samples within groups. This design eliminates the need for inefficient stochastic policies, unlocking the use of efficient deterministic ODE samplers and faster training. Extensive results show that DGPO trains around 20 times faster than existing state-of-the-art methods and achieves superior performance on both in-domain and out-of-domain reward metrics. Code is available at https://github.com/Luo-Yihong/DGPO.
- Abstract(参考訳): Group Relative Preference Optimization (GRPO)のような強化学習手法は大規模言語モデルを大幅に強化しているが、拡散モデルへの適応は依然として困難である。
特にGRPOは確率的ポリシーを要求するが、最もコスト効率のよい拡散サンプリングは決定論的ODEに基づいている。
最近の研究は、非効率なSDEベースのサンプリング器を用いて確率性を誘導することでこの問題に対処しているが、モデルに依存しないガウスノイズに依存するため、収束が遅くなる。
この対立を解決するために、ポリシ・グラディエント・フレームワークを完全に排除した新しいオンラインRLアルゴリズムであるDirect Group Preference Optimization (DGPO)を提案する。
DGPOはグループ内のサンプルの相対情報を利用するグループレベルの嗜好から直接学習する。
この設計は、非効率的な確率的ポリシーの必要性を排除し、効率的な決定論的ODEサンプリングとより高速なトレーニングを解放する。
その結果、DGPOは既存の最先端手法の約20倍の速度でトレーニングを行い、ドメイン内とドメイン外の両方の報酬指標で優れたパフォーマンスを達成できた。
コードはhttps://github.com/Luo-Yihong/DGPOで入手できる。
関連論文リスト
- $\text{G}^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラ-GRPO(textG2$RPO)フレームワークを提案する。
また、複数の拡散スケールで計算された利点を集約し、サンプリング方向をより包括的かつ堅牢に評価するマルチグラニュラリティ・アドバンテージ統合モジュールも導入する。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Robust LLM Alignment via Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデル(LLM)と人間の好みを一致させる上での大きな課題は、分散シフトの問題である。
We developed two novel distributionally robust direct preference optimization (DPO) algorithm、すなわち Wasserstein DPO (WDPO) and Kullback-Leibler DPO (KLDPO)。
WDPO と KLDPO が優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-04T02:03:19Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。