論文の概要: Aligning Diffusion Language Models via Unpaired Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.23658v1
- Date: Sun, 26 Oct 2025 03:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.323269
- Title: Aligning Diffusion Language Models via Unpaired Preference Optimization
- Title(参考訳): 未熟な選好最適化による拡散言語モデルの調整
- Authors: Vaibhav Jindal, Hejian Sang, Chun-Mao Lai, Yanning Chen, Zhipeng Wang,
- Abstract要約: 拡散言語モデル(dLLMs)は、自己回帰(AR)ジェネレータに代わる新たな選択肢である。
ELBO-KTOは,拡散対数類似度に対するELBOサロゲートと,予測理論的,未選択の選好目的を組み合わせて導入する。
- 参考スコア(独自算出の注目度): 3.5258364450686623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (dLLMs) are an emerging alternative to autoregressive (AR) generators, but aligning them to human preferences is challenging because sequence log-likelihoods are intractable and pairwise preference data are costly to collect. We introduce ELBO-KTO, which combines an ELBO surrogate for diffusion log-likelihoods with a prospect-theoretic, unpaired preference objective (Kahneman Tversky Optimization, KTO). We analyze the bias and variance induced by the ELBO substitution and employ variance-reduction practices that stabilize gradients during training. Applied to LLaDA-8B-Instruct, ELBO-KTO yields \textbf{65.9\%} and \textbf{62.3\%} adjusted win rates on kto-mix-14k and UltraFeedback-Binary, respectively, versus the base model under an automatic LLM judge. Across downstream tasks, including GSM8K, MMLU, and additional reasoning/knowledge benchmarks, ELBO-KTO trained on UltraFeedback-Binary performs on par with or better than the base model under identical decoding. This establishes unpaired preference optimization as a viable alternative to pairwise alignment in diffusion LLMs.
- Abstract(参考訳): 拡散言語モデル (dLLMs) は自己回帰(AR)ジェネレータの新たな代替品であるが、シーケンスログのような構造が引き起こされ、ペアの好みデータが収集にコストがかかるため、人間の好みに合わせることは困難である。
ELBO-KTO(ELBO-KTO)は,拡散対数類似度に対するELBOサロゲートと,確率論的,未ペアの選好目標(Kahneman Tversky Optimization,KTO)を組み合わせて導入する。
我々は,ELBO置換によるバイアスと分散を分析し,トレーニング中の勾配を安定させる分散還元法を採用した。
LLaDA-8B-インストラクタに適用すると、ELBO-KTOは、kto-mix-14kとUltraFeedback-Binaryの勝利率を、自動LLM判定の下でのベースモデルと比較して、 \textbf{65.9\%} と \textbf{62.3\%} をそれぞれ調整する。
GSM8K、MMLU、その他の推論/知識ベンチマークを含む下流タスク全体において、ELBO-KTOはUltraFeedback-Binaryでトレーニングされ、同じ復号化の下でベースモデルと同等以上の性能を発揮する。
これにより、拡散LLMにおけるペアワイズアライメントの代替として、未ペアの選好最適化が実現可能である。
関連論文リスト
- Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization [25.504794432255306]
拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
論文 参考訳(メタデータ) (2025-10-09T17:58:07Z) - Efficient Large Language Model Inference with Neural Block Linearization [51.619870789584525]
本稿では,トランスフォーマーモデル推論を高速化する新しいフレームワークであるNeural Block Linearization (NBL)を紹介する。
NBLは、線形最小平均正方形誤差推定器から導かれる線形近似で自己アテンション層を置き換える。
実験では、NBLは競争精度を維持しながら、顕著な計算スピードアップを達成する。
論文 参考訳(メタデータ) (2025-05-27T12:01:43Z) - InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。
提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。
実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2025-03-24T08:58:49Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [39.29350451006295]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
実験では、標準的なRLHFと比較して、特定の測定基準によって測定されるように、人間の嗜好に沿った29%から41%の改善が示されている。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。