論文の概要: Diffusion Alignment as Variational Expectation-Maximization
- arxiv url: http://arxiv.org/abs/2510.00502v1
- Date: Wed, 01 Oct 2025 04:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.380023
- Title: Diffusion Alignment as Variational Expectation-Maximization
- Title(参考訳): 変分期待値としての拡散アライメント-最大化
- Authors: Jaewoo Lee, Minsu Kim, Sanghyeok Choi, Inhyuck Song, Sujin Yun, Hyeongyu Kang, Woocheol Shin, Taeyoung Yun, Kiyoung Om, Jinkyoo Park,
- Abstract要約: 拡散アライメントを変動予測最大化(DAV)として導入する。
DAVは、E段階とM段階の2つの相の交互な反復過程として拡散アライメントを定式化する。
我々はDAVが連続タスクと離散タスクの両方の多様性を維持しながら報酬を最適化できることを実証した。
- 参考スコア(独自算出の注目度): 32.10775492481573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion alignment aims to optimize diffusion models for the downstream objective. While existing methods based on reinforcement learning or direct backpropagation achieve considerable success in maximizing rewards, they often suffer from reward over-optimization and mode collapse. We introduce Diffusion Alignment as Variational Expectation-Maximization (DAV), a framework that formulates diffusion alignment as an iterative process alternating between two complementary phases: the E-step and the M-step. In the E-step, we employ test-time search to generate diverse and reward-aligned samples. In the M-step, we refine the diffusion model using samples discovered by the E-step. We demonstrate that DAV can optimize reward while preserving diversity for both continuous and discrete tasks: text-to-image synthesis and DNA sequence design.
- Abstract(参考訳): 拡散アライメントは、下流の目的のために拡散モデルを最適化することを目的としている。
強化学習や直接バックプロパゲーションに基づく既存の手法は報酬の最大化に大きく貢献するが、しばしば報酬の過度な最適化とモード崩壊に悩まされる。
拡散アライメントを変分期待最大化(DAV)として導入し, 拡散アライメントをE段階とM段階の2つの相補相の反復過程として定式化する。
E-stepでは、多種多様な報酬に整合したサンプルを生成するために、テストタイムサーチを採用している。
M-stepでは,E-stepで発見されたサンプルを用いて拡散モデルを洗練する。
DAVは、テキスト・ツー・イメージ合成とDNA配列設計という、連続的・離散的なタスクの多様性を保ちながら報酬を最適化できることを実証する。
関連論文リスト
- Discrete Diffusion Trajectory Alignment via Stepwise Decomposition [80.66701883088935]
離散拡散モデルに対する軌道アライメントにアプローチするオフライン選好最適化法を提案する。
問題をステップ毎の後部をマッチングすることにより、段階的にアライメントする目的の集合に分解する。
DNA配列設計、タンパク質の逆フォールディング、言語モデリングを含む複数の領域にわたる実験は、我々のアプローチの優位性を一貫して示している。
論文 参考訳(メタデータ) (2025-07-07T09:52:56Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Test-time Alignment of Diffusion Models without Reward Over-optimization [8.981605934618349]
拡散モデルは生成的タスクにおいて優れているが、特定の目的とそれらを整合させることは依然として困難である。
そこで本研究では,SMC(Sequential Monte Carlo)をベースとした学習自由なテスト時間手法を提案する。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
論文 参考訳(メタデータ) (2025-01-10T09:10:30Z) - Diverse Score Distillation [27.790458964072823]
ランダムな初期シードによって定義された生成経路に従うよう最適化するスコアの定式化を提案する。
本稿では,2次元最適化,テキストベースの3D推論,単一ビュー再構成などのタスクにまたがるDSD(Diverse Score Distillation)の応用について紹介する。
論文 参考訳(メタデータ) (2024-12-09T18:59:02Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - Where to Diffuse, How to Diffuse, and How to Get Back: Automated
Learning for Multivariate Diffusions [22.04182099405728]
拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。
補助変数の数に対して、低いバウンドを最大化する方法を示す。
次に,特定対象雑音分布の拡散をパラメータ化する方法を示す。
論文 参考訳(メタデータ) (2023-02-14T18:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。