論文の概要: Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.18547v1
- Date: Sat, 24 May 2025 06:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.498559
- Title: Diffusion Blend: Inference-Time Multi-Preference Alignment for Diffusion Models
- Title(参考訳): 拡散ブレンド:拡散モデルのための推論時間多重参照アライメント
- Authors: Min Cheng, Fatemeh Doudi, Dileep Kalathil, Mohammad Ghavamzadeh, Panganamala R. Kumar,
- Abstract要約: 拡散ブレンド(Diffusion Blend)は、推論時多重参照アライメントを解決する新しい手法である。
このアプローチを、マルチリワードアライメントのためのDB-MPAと、KL正規化制御のためのDB-KLAの2つのアルゴリズムでインスタンス化する。
- 参考スコア(独自算出の注目度): 25.59542599768357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms have been used recently to align diffusion models with downstream objectives such as aesthetic quality and text-image consistency by fine-tuning them to maximize a single reward function under a fixed KL regularization. However, this approach is inherently restrictive in practice, where alignment must balance multiple, often conflicting objectives. Moreover, user preferences vary across prompts, individuals, and deployment contexts, with varying tolerances for deviation from a pre-trained base model. We address the problem of inference-time multi-preference alignment: given a set of basis reward functions and a reference KL regularization strength, can we design a fine-tuning procedure so that, at inference time, it can generate images aligned with any user-specified linear combination of rewards and regularization, without requiring additional fine-tuning? We propose Diffusion Blend, a novel approach to solve inference-time multi-preference alignment by blending backward diffusion processes associated with fine-tuned models, and we instantiate this approach with two algorithms: DB-MPA for multi-reward alignment and DB-KLA for KL regularization control. Extensive experiments show that Diffusion Blend algorithms consistently outperform relevant baselines and closely match or exceed the performance of individually fine-tuned models, enabling efficient, user-driven alignment at inference-time. The code is available at https://github.com/bluewoods127/DB-2025}{github.com/bluewoods127/DB-2025.
- Abstract(参考訳): Reinforcement Learning (RL)アルゴリズムは、最近、特定のKL正規化の下で1つの報酬関数を最大化するために、美的品質やテキスト画像の整合性などの下流目標と拡散モデルを整合させるために使われている。
しかしながら、このアプローチは本質的に制限的であり、アライメントは複数の、しばしば矛盾する目標のバランスをとる必要がある。
さらに、ユーザの好みはプロンプト、個人、デプロイメントのコンテキストによって異なり、事前訓練されたベースモデルからの逸脱に対する耐性は様々である。
基本報酬関数のセットと基準KL正規化強度を与えられた場合、推論時に、追加の微調整を必要とせず、ユーザが指定した報酬と正規化の線形結合に整合した画像を生成することができるような微調整手順を設計できるだろうか?
Diffusion Blendは、微調整モデルに付随する後方拡散過程をブレンドすることで、推論時マルチ参照アライメントを解決する新しい手法であり、マルチリワードアライメントのためのDB-MPAとKL正規化制御のためのDB-KLAの2つのアルゴリズムでこの手法をインスタンス化する。
拡張実験により、拡散ブレンドアルゴリズムは関連するベースラインを一貫して上回り、個々の微調整されたモデルの性能と密に一致し、推論時の効率的なユーザ主導アライメントを可能にすることを示した。
コードはhttps://github.com/bluewoods127/DB-2025}{github.com/bluewoods127/DB-2025で入手できる。
関連論文リスト
- Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Margin-aware Preference Optimization for Aligning Diffusion Models without Reference [19.397326645617422]
本稿では、SDXL(Stable Diffusion XL)のような最近のテキスト・画像拡散モデルのアライメントに焦点を当てる。
参照モデルに依存しない拡散モデルのための新しいメモリフレンドリーな選好アライメント手法を提案し,マージン・アウェア・選好最適化(MaPO)を提案する。
MaPOは、好ましくも好ましくない画像集合と好ましくも好まれる集合との近縁マージンを最大化し、同時に一般的なスタイリスティックな特徴と嗜好を学習する。
論文 参考訳(メタデータ) (2024-06-10T16:14:45Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Decoding-time Realignment of Language Models [44.54462397717971]
そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
論文 参考訳(メタデータ) (2024-02-05T13:31:28Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。