論文の概要: Step-level Denoising-time Diffusion Alignment with Multiple Objectives
- arxiv url: http://arxiv.org/abs/2604.14379v1
- Date: Wed, 15 Apr 2026 19:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.584976
- Title: Step-level Denoising-time Diffusion Alignment with Multiple Objectives
- Title(参考訳): 複数の対象を持つステップレベルのデノジング時間拡散アライメント
- Authors: Qi Zhang, Dawei Wang, Shaofeng Zou,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、拡散モデルと人間の嗜好を整合させる強力なツールとして登場した。
しかし実際には、人間の嗜好は本質的に多元的であり、整列モデルは下流の複数の目標をバランスさせなければならない。
拡散モデルと複数の目的を整合させる学習自由度フレームワークであるMSDDA(Multi-objective Step-level Denoising-time Diffusion Alignment)を提案する。
- 参考スコア(独自算出の注目度): 26.715620800855962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful tool for aligning diffusion models with human preferences, typically by optimizing a single reward function under a KL regularization constraint. In practice, however, human preferences are inherently pluralistic, and aligned models must balance multiple downstream objectives, such as aesthetic quality and text-image consistency. Existing multi-objective approaches either rely on costly multi-objective RL fine-tuning or on fusing separately aligned models at denoising time, but they generally require access to reward values (or their gradients) and/or introduce approximation error in the resulting denoising objectives. In this paper, we revisit the problem of RL fine-tuning for diffusion models and address the intractability of identifying the optimal policy by introducing a step-level RL formulation. Building on this, we further propose Multi-objective Step-level Denoising-time Diffusion Alignment (MSDDA), a retraining-free framework for aligning diffusion models with multiple objectives, obtaining the optimal reverse denoising distribution in closed form, with mean and variance expressed directly in terms of single-objective base models. We prove that this denoising-time objective is exactly equivalent to the step-level RL fine-tuning, introducing no approximation error. Moreover, we provide numerical results, which indicate our method outperforms existing denoising-time approaches.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は,KL正規化制約の下で1つの報酬関数を最適化することにより,拡散モデルと人間の嗜好を整合させる強力なツールとして登場した。
しかし実際には、人間の嗜好は本質的に多元的であり、整列モデルは美的品質やテキストイメージの整合性といった複数の下流目標のバランスをとる必要がある。
既存の多目的アプローチは、コストのかかる多目的RL微調整か、個別に整列したモデルをデノナイジング時に融合させるかに依存するが、一般的には報酬値(またはその勾配)にアクセスしたり、結果としてデノナイジングする目的に近似誤差を導入する必要がある。
本稿では,拡散モデルにおけるRL微調整の問題を再考し,ステップレベルのRL定式化を導入することで最適方針を識別する難しさに対処する。
さらに,複数目的の拡散モデルを調整するための学習自由フレームワークであるMSDDA(Multi-objective Step-level Denoising-time Diffusion Alignment)を提案する。
近似誤差を伴わず、ステップレベルのRL微調整と同値であることを示す。
さらに,提案手法が既存のデノナイジング時間手法より優れていることを示す数値結果も提供する。
関連論文リスト
- Reinforcement Learning for Diffusion LLMs with Entropy-Guided Step Selection and Stepwise Advantages [7.728607011076579]
強化学習は、自己回帰言語モデル(AR)の訓練後において有効であるが、これらの手法を拡散言語モデル(DLM)に拡張することは、難易度が高いため困難である。
拡散に基づくシーケンス生成を有限水平マルコフ決定過程としてデノベーション軌道上で定式化し、正確な偏りのない政策勾配を導出する。
コーディングと論理的推論ベンチマークの実験は、数学的推論に強い競争性能を持つ最先端の結果を示している。
論文 参考訳(メタデータ) (2026-03-13T01:38:44Z) - Noise-Robust Tiny Object Localization with Flows [63.60972031108944]
フレキシブルなエラーモデリングと不確実性誘導最適化に正規化フローを活用するノイズローバストローカライゼーションフレームワークを提案する。
本手法は,フローベース誤差モデルを用いて,複雑な非ガウス予測分布を抽出し,ノイズの多い監視下で頑健な学習を可能にする。
不確実性を考慮した勾配変調機構は、トレーニングを安定化しながら過度な適合を緩和し、高不確実でノイズの強いサンプルからの学習をさらに抑制する。
論文 参考訳(メタデータ) (2026-01-02T09:16:55Z) - Discrete Diffusion Trajectory Alignment via Stepwise Decomposition [80.66701883088935]
離散拡散モデルに対する軌道アライメントにアプローチするオフライン選好最適化法を提案する。
問題をステップ毎の後部をマッチングすることにより、段階的にアライメントする目的の集合に分解する。
DNA配列設計、タンパク質の逆フォールディング、言語モデリングを含む複数の領域にわたる実験は、我々のアプローチの優位性を一貫して示している。
論文 参考訳(メタデータ) (2025-07-07T09:52:56Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment [14.541973333460149]
Mixing Preference Optimization (MPO)は、単一目的ポリシーを集約するための後処理フレームワークである。
MPOは様々な好みにまたがるバランスの取れた性能を実現し、計算コストを大幅に削減した既存モデルより優れている。
論文 参考訳(メタデータ) (2025-02-25T23:22:12Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。