論文の概要: LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.19223v1
- Date: Sun, 25 May 2025 16:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.988797
- Title: LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
- Title(参考訳): LLaDA 1.5: 大規模言語拡散モデルに対する可変推論最適化
- Authors: Fengqi Zhu, Rongzhen Wang, Shen Nie, Xiaolu Zhang, Chunwei Wu, Jun Hu, Jun Zhou, Jianfei Chen, Yankai Lin, Ji-Rong Wen, Chongxuan Li,
- Abstract要約: Masked Diffusion Models (MDM) は言語モデリングにおいて有望なパラダイムである。
この課題は、優先最適化に必要なエビデンス・ロウアー・バウンド(ELBO)に基づく推定値の高分散から生じる。
本稿では,ELBO推定器の偏差を公式に解析し,優先最適化勾配の偏差と偏差を導出するフレームワークであるVRPOを提案する。
- 参考スコア(独自算出の注目度): 76.8317443926908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Masked Diffusion Models (MDMs), such as LLaDA, present a promising paradigm for language modeling, there has been relatively little effort in aligning these models with human preferences via reinforcement learning. The challenge primarily arises from the high variance in Evidence Lower Bound (ELBO)-based likelihood estimates required for preference optimization. To address this issue, we propose Variance-Reduced Preference Optimization (VRPO), a framework that formally analyzes the variance of ELBO estimators and derives bounds on both the bias and variance of preference optimization gradients. Building on this theoretical foundation, we introduce unbiased variance reduction strategies, including optimal Monte Carlo budget allocation and antithetic sampling, that significantly improve the performance of MDM alignment. We demonstrate the effectiveness of VRPO by applying it to LLaDA, and the resulting model, LLaDA 1.5, outperforms its SFT-only predecessor consistently and significantly across mathematical (GSM8K +4.7), code (HumanEval +3.0, MBPP +1.8), and alignment benchmarks (IFEval +4.0, Arena-Hard +4.3). Furthermore, LLaDA 1.5 demonstrates a highly competitive mathematical performance compared to strong language MDMs and ARMs. Project page: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
- Abstract(参考訳): LLaDAのようなMasked Diffusion Models(MDM)は言語モデリングに有望なパラダイムを提供するが、強化学習を通じてこれらのモデルを人間の好みに合わせる努力は比較的少ない。
この課題は主に、優先最適化に必要なエビデンス下界(ELBO)に基づく推定値の高分散から生じる。
この問題に対処するために, ELBO推定器の分散を公式に解析し, 優先最適化勾配のバイアスと分散の両方に基づいて境界を導出するフレームワークであるVRPO(Variance-Reduced Preference Optimization)を提案する。
この理論の基礎を基礎として,モンテカルロの予算配分の最適化や,MDMアライメントの性能を著しく向上するアンチセプティックサンプリングなど,偏りのない分散低減戦略を導入する。
LLaDAに適用することでVRPOの有効性を実証し、結果のモデルであるLLaDA 1.5は、SFTのみの先行モデルであるGSM8K +4.7、コード(HumanEval +3.0, MBPP +1.8)、アライメントベンチマーク(IFEval +4.0, Arena-Hard +4.3)を一貫して上回っている。
さらに、LLaDA 1.5 は強力な言語 MDM や ARM と比較して非常に競争力のある数学的性能を示す。
プロジェクトページ:https://ml-gsai.github.io/LLaDA-1.5-Demo/。
関連論文リスト
- AdUE: Improving uncertainty estimation head for LoRA adapters in LLMs [1.83270805462863]
本稿では,AdUE1を提案する。AdUE1は,ソフトマックスに基づく評価を改善するための,効率的なポストホック不確実性推定(UE)手法である。
私たちのアプローチは軽量(ベースモデルの変更なし)で、よりキャリブレーションの高い信頼性を実現しています。
論文 参考訳(メタデータ) (2025-05-21T12:23:40Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。
本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。
我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文 参考訳(メタデータ) (2025-02-14T18:59:51Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Efficient Estimation in NPIV Models: A Comparison of Various Neural
Networks-Based Estimators [1.4000007799304268]
半非パラメトリックインスツルメンタル変数(NPIV)モデルにおけるニューラルネットワーク(ANN)の計算性能について検討する。
我々は予測の効率的な推定に焦点をあて、未知の関数を近似するためにANNを使用する。
複雑な設計における有限サンプル性能を比較する大規模なモンテカルロ実験を行う。
論文 参考訳(メタデータ) (2021-10-13T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。