Fugu-MT 論文翻訳(概要): Inference-Time Alignment of Diffusion Models with Direct Noise Optimization

論文の概要: Inference-Time Alignment of Diffusion Models with Direct Noise Optimization

arxiv url: http://arxiv.org/abs/2405.18881v3
Date: Wed, 02 Oct 2024 05:22:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 22:18:15.714739
Title: Inference-Time Alignment of Diffusion Models with Direct Noise Optimization
Title（参考訳）: 直接雑音最適化を用いた拡散モデルの推定時間アライメント
Authors: Zhiwei Tang, Jiangweizhi Peng, Jiasheng Tang, Mingyi Hong, Fan Wang, Tsung-Hui Chang,
Abstract要約: 拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
参考スコア（独自算出の注目度）: 45.77751895345154
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we focus on the alignment problem of diffusion models with a continuous reward function, which represents specific objectives for downstream tasks, such as increasing darkness or improving the aesthetics of images. The central goal of the alignment problem is to adjust the distribution learned by diffusion models such that the generated samples maximize the target reward function. We propose a novel alignment approach, named Direct Noise Optimization (DNO), that optimizes the injected noise during the sampling process of diffusion models. By design, DNO operates at inference-time, and thus is tuning-free and prompt-agnostic, with the alignment occurring in an online fashion during generation. We rigorously study the theoretical properties of DNO and also propose variants to deal with non-differentiable reward functions. Furthermore, we identify that naive implementation of DNO occasionally suffers from the out-of-distribution reward hacking problem, where optimized samples have high rewards but are no longer in the support of the pretrained distribution. To remedy this issue, we leverage classical high-dimensional statistics theory to an effective probability regularization technique. We conduct extensive experiments on several important reward functions and demonstrate that the proposed DNO approach can achieve state-of-the-art reward scores within a reasonable time budget for generation.
Abstract（参考訳）: 本研究では,連続報酬関数を用いた拡散モデルのアライメント問題に着目し,暗さの増大や画像の美的改善など,下流タスクの特定の目的を表す。アライメント問題の主目的は、生成したサンプルが目標報酬関数を最大化するように拡散モデルで学習した分布を調整することである。拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。我々は、DNOの理論的性質を厳密に研究し、また、微分不可能な報酬関数を扱う変種を提案する。さらに,DNO の素直な実装は,最適化されたサンプルが高い報酬を得られるが,事前学習された分布をサポートできない,不当な分配報酬ハック問題に悩まされることも見いだした。この問題を解決するために,古典的高次元統計理論を有効確率正規化手法に活用する。我々は、いくつかの重要な報酬関数について広範な実験を行い、提案したDNOアプローチが、生成のための妥当な時間予算内で、最先端の報酬スコアを達成できることを実証する。

関連論文リスト

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling [58.59644539594293]
DiNa-LRMは、雑音拡散状態に基づいて好み学習を直接定式化する拡散ネイティブ潜在報酬モデルである。本手法は拡散ノイズ依存の不確実性を伴う雑音校正サーストンの可能性を導入する。画像アライメントベンチマーク全体において、DiNa-LRMは既存の拡散ベースの報酬ベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2026-02-11T18:57:29Z)
Understanding Sampler Stochasticity in Training Diffusion Models for RLHF [11.537564997052606]
本稿では,報酬ギャップを理論的に特徴づけ,一般拡散モデルに対して非空境界を与える。実験では,テキスト・ツー・イメージ・モデルによる大規模な実験により,報酬ギャップがトレーニングよりも一定に狭まることが確認された。
論文参考訳（メタデータ） (2025-10-12T19:08:38Z)
G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。 G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文参考訳（メタデータ） (2025-10-02T12:57:12Z)
Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
Dynamic Search for Inference-Time Alignment in Diffusion Models [87.35944312589424]
探索問題としての拡散における推論時間アライメントと動的拡散探索(DSearch)を提案する。 DSearchは、デノナイズプロセスからサブサンプルを取得し、中間ノードの報酬を近似する。また、ビーム幅と木の拡大を動的に調整し、高次世代を効率的に探索する。
論文参考訳（メタデータ） (2025-03-03T20:32:05Z)
Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文参考訳（メタデータ） (2025-02-20T17:48:45Z)
Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2024-11-02T07:38:02Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。提案手法はSOTA法よりも10倍高速である。
論文参考訳（メタデータ） (2024-07-28T10:07:55Z)
Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文参考訳（メタデータ） (2024-07-03T17:34:55Z)
Diffusion Model for Data-Driven Black-Box Optimization [54.25693582870226]
我々は、強力な生成AI技術である拡散モデルに注目し、ブラックボックス最適化の可能性について検討する。本研究では,1)実数値報酬関数のノイズ測定と,2)対比較に基づく人間の嗜好の2種類のラベルについて検討する。提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,拡散モデルのパワーを有効活用する。
論文参考訳（メタデータ） (2024-03-20T00:41:12Z)
Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文参考訳（メタデータ） (2024-02-13T15:55:41Z)
Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。 DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-02-09T17:18:33Z)
Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文参考訳（メタデータ） (2023-10-06T06:29:06Z)
Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。 NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文参考訳（メタデータ） (2023-05-31T16:31:24Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。