論文の概要: Trust-Region Noise Search for Black-Box Alignment of Diffusion and Flow Models
- arxiv url: http://arxiv.org/abs/2603.14504v1
- Date: Sun, 15 Mar 2026 17:37:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.85677
- Title: Trust-Region Noise Search for Black-Box Alignment of Diffusion and Flow Models
- Title(参考訳): 拡散・流れモデルのブラックボックスアライメントに対する信頼関係雑音探索
- Authors: Niklas Schweiger, Daniel Cremers, Karnik Ram,
- Abstract要約: 信頼領域に基づく検索アルゴリズム(TRS)は、事前訓練された生成モデルと報酬モデルをブラックボックスとして扱う。
我々は,テキスト・ツー・イメージ,分子・タンパク質設計タスクにおけるTRSを評価し,出力サンプルを著しく改善した。
- 参考スコア(独自算出の注目度): 46.98480905892642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing the noise samples of diffusion and flow models is an increasingly popular approach to align these models to target rewards at inference time. However, we observe that these approaches are usually restricted to differentiable or cheap reward models, the formulation of the underlying pretrained generative model, or are memory/compute inefficient. We instead propose a simple trust-region based search algorithm (TRS) which treats the pre-trained generative and reward models as a black-box and only optimizes the source noise. Our approach achieves a good balance between global exploration and local exploitation, and is versatile and easily adaptable to various generative settings and reward models with minimal hyperparameter tuning. We evaluate TRS across text-to-image, molecule and protein design tasks, and obtain significantly improved output samples over the base generative models and other inference-time alignment approaches which optimize the source noise sample, or even the entire reverse-time sampling noise trajectories in the case of diffusion models. Our source code is publicly available.
- Abstract(参考訳): 拡散モデルと流れモデルのノイズサンプルを最適化することは、これらのモデルを推論時に報酬に合わせるために、ますます一般的なアプローチである。
しかし、これらの手法は通常、微分可能または安価な報酬モデル、基礎となる事前学習生成モデルの定式化、あるいはメモリ/計算非効率に制限されている。
そこで我々は,事前学習した生成モデルと報奨モデルをブラックボックスとして扱い,ソースノイズのみを最適化する簡易信頼領域探索アルゴリズム(TRS)を提案する。
提案手法は,グローバルな探索と局所的利用のバランスが良好であり,様々な生成的設定や報酬モデルに適応しやすく,最小限のハイパーパラメータチューニングが可能である。
我々は,テキスト・ツー・イメージ,分子・タンパク質設計タスクにおけるTRSを評価し,ソースノイズサンプルを最適化するベース生成モデルや他の推論時アライメントアプローチ,あるいは拡散モデルの場合の逆時間サンプリングノイズトラジェクトリ全体に対して,大幅に改善された出力サンプルを得る。
私たちのソースコードは公開されています。
関連論文リスト
- Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - A Minimalist Method for Fine-tuning Text-to-Image Diffusion Models [3.8623569699070357]
ノイズPPOは、初期雑音発生器を学習する最小限の強化学習アルゴリズムである。
実験により、ノイズPPOは元のモデルよりもアライメントとサンプル品質を一貫して改善することが示された。
これらの知見は拡散モデルにおける最小主義的RL微調整の実用的価値を裏付けるものである。
論文 参考訳(メタデータ) (2025-05-23T00:01:52Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Adjoint Matching: Fine-tuning Flow and Diffusion Generative Models with Memoryless Stochastic Optimal Control [26.195547996552406]
我々は,反復的プロセスを通じてサンプルを生成する動的生成モデルに対して,報酬微調整を最適制御(SOC)として用いた。
提案手法は,報酬の微調整,一貫性の向上,リアリズム,人間の選好報酬モデルへの一般化など,既存の方法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-09-13T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。