論文の概要: Test-time Alignment of Diffusion Models without Reward Over-optimization
- arxiv url: http://arxiv.org/abs/2501.05803v2
- Date: Mon, 10 Feb 2025 08:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:39.995069
- Title: Test-time Alignment of Diffusion Models without Reward Over-optimization
- Title(参考訳): 逆過度最適化を伴わない拡散モデルの試験時間アライメント
- Authors: Sunwoo Kim, Minkyu Kim, Dongmin Park,
- Abstract要約: 拡散モデルは生成的タスクにおいて優れているが、特定の目的とそれらを整合させることは依然として困難である。
そこで本研究では,SMC(Sequential Monte Carlo)をベースとした学習自由なテスト時間手法を提案する。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
- 参考スコア(独自算出の注目度): 8.981605934618349
- License:
- Abstract: Diffusion models excel in generative tasks, but aligning them with specific objectives while maintaining their versatility remains challenging. Existing fine-tuning methods often suffer from reward over-optimization, while approximate guidance approaches fail to optimize target rewards effectively. Addressing these limitations, we propose a training-free, test-time method based on Sequential Monte Carlo (SMC) to sample from the reward-aligned target distribution. Our approach, tailored for diffusion sampling and incorporating tempering techniques, achieves comparable or superior target rewards to fine-tuning methods while preserving diversity and cross-reward generalization. We demonstrate its effectiveness in single-reward optimization, multi-objective scenarios, and online black-box optimization. This work offers a robust solution for aligning diffusion models with diverse downstream objectives without compromising their general capabilities. Code is available at https://github.com/krafton-ai/DAS.
- Abstract(参考訳): 拡散モデルは、生成的タスクにおいて優れているが、それらの汎用性を維持しながら、特定の目的と整合するのは難しい。
既存の微調整手法は、しばしば報酬過度な最適化に悩まされるが、近似的なガイダンスアプローチは、目標報酬を効果的に最適化することができない。
これらの制約に対処し、報奨対象分布からサンプルをサンプリングするために、SMC(Sequential Monte Carlo)に基づくトレーニング不要なテスト時間手法を提案する。
提案手法は拡散サンプリングとテンパリング技術の導入に適した手法であり,多様性と相互回帰の一般化を保ちながら,微調整法に匹敵する,あるいは優れた目標報酬を達成できる。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
この研究は、拡散モデルを様々な下流の目的と整合させ、一般的な能力を損なうことなく、堅牢なソリューションを提供する。
コードはhttps://github.com/krafton-ai/DAS.comで公開されている。
関連論文リスト
- DiOpt: Self-supervised Diffusion for Constrained Optimization [46.75288477458697]
DiOptは、反復的な自己学習を通じて、最適に近い解分布を体系的に学習する新しい拡散パラダイムである。
我々の知る限りでは、DiOptは自己教師付き拡散と厳しい制約を満たす最初の成功例である。
論文 参考訳(メタデータ) (2025-02-14T17:43:08Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - ParetoFlow: Guided Flows in Multi-Objective Optimization [12.358524770639136]
オフライン多目的最適化(MOO)では、関連するラベルのオフラインデータセットを同時に複数の目的に活用する。
最近のイテレーションは主に進化的最適化とベイズ最適化を採用しており、データに固有の生成能力に限定的に注意が向けられている。
本手法は,様々なタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T21:14:18Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Covariance-Adaptive Sequential Black-box Optimization for Diffusion Targeted Generation [60.41803046775034]
ユーザのブラックボックス目標スコアのみを用いた拡散モデルを用いて,ユーザ優先のターゲット生成を行う方法を示す。
数値実験問題と目標誘導型3次元分子生成タスクの両方の実験により,より優れた目標値を得る上で,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-02T17:26:27Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Diffusion Models as Constrained Samplers for Optimization with Unknown Constraints [42.47298301874283]
拡散モデルを用いてデータ多様体内で最適化を行う。
目的関数の微分可能性に応じて,2つの異なるサンプリング手法を提案する。
提案手法は,従来の最先端のベースラインよりも優れた,あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-28T03:09:12Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。