論文の概要: Aligning Few-Step Generative Models by Amortizing Sample-based Variational Inference
- arxiv url: http://arxiv.org/abs/2605.26552v2
- Date: Wed, 27 May 2026 07:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.085379
- Title: Aligning Few-Step Generative Models by Amortizing Sample-based Variational Inference
- Title(参考訳): サンプルベース変分推論の補正によるFew-Step生成モデルの調整
- Authors: Jaewoo Lee, Hyeongyu Kang, Dohyun Kim, Kyuil Sim, Woocheol Shin, Minsu Kim, Taeyoung Yun, Jeongjae Lee, Sanghyeok Choi, Tabitha Edith Lee, Jong Chul Ye, Jinkyoo Park,
- Abstract要約: FAV, Few-step Generative Models Alignment via Sample-based Variational Inference。
基準分布に固定された報奨型分布からのサンプリングとしてのFAVキャストアライメント
ロボット操作と画像生成のアライメントの2つの領域でFAVを評価する。
- 参考スコア(独自算出の注目度): 60.82875447631739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning a few-step generative model is challenging, since existing alignment frameworks typically rely on restrictive assumptions: a tractable likelihood, a specific ODE/SDE solver, or a particular model family. We introduce FAV, Few-step Generative Models Alignment via Sample-based Variational Inference, a general alignment framework that requires only sample access to the generator and the reference distribution. We cast alignment as sampling from a reward-tilted distribution anchored to a reference distribution. We leverage Stein Variational Gradient Descent as a sample-based variational inference scheme and amortize its particle updates into the generator parameters via fixed-point regression. We evaluate FAV on two domains: robotics manipulation and image generator alignment. On generative policy alignment for robotic manipulation, FAV outperforms prevailing policy extraction baselines across 56 offline and 30 offline-to-online RL tasks. For image generator alignment, FAV fine-tunes diverse few-step backbones, including GAN, drifting model, consistency models, and flow maps, scaling from ImageNet-$256$ to 1024$^2$ text-to-image synthesis. Code is available at https://github.com/Jaewoopudding/FAV.
- Abstract(参考訳): 既存のアライメントフレームワークは一般的に、トラクタブルな可能性、特定のODE/SDEソルバ、あるいは特定のモデルファミリといった限定的な仮定に依存しています。
FAV, Few-step Generative Models Alignment via Sample-based Variational Inference, a general alignment framework that requires only access to the generator and the reference distribution。
基準分布に固定された報奨型分布からのサンプリングとしてアライメントをキャストした。
我々は、サンプルベースの変分推論スキームとしてスタイン変分勾配Descentを活用し、その粒子の更新を固定点回帰によりジェネレータパラメータに補正する。
ロボット操作と画像生成のアライメントの2つの領域でFAVを評価する。
ロボット操作のためのジェネレーティブポリシーアライメントでは、FAVは56のオフラインと30のオフラインのRLタスクで、ポリシー抽出のベースラインを上回ります。
画像生成のアライメントには、GAN、ドリフトモデル、一貫性モデル、フローマップ、ImageNet-$256$から1024$^2$のテキスト・ツー・イメージ合成など、FAVの微調整が多岐にわたる。
コードはhttps://github.com/Jaewoopudding/FAV.comで入手できる。
関連論文リスト
- What Linear Probes Miss: Multi-View Probing for Weight-Space Learning [8.474818775416637]
MVProbeは、インタラクションを意識したビューで一階のシグナルを合成する、多視点のプロファイリングフレームワークである。
Model Jungleベンチマークでは、MVProbeが最先端のProbeXを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-22T09:18:01Z) - Fair Benchmarking of Emerging One-Step Generative Models Against Multistep Diffusion and Flow Models [4.809245505572861]
最先端のテキスト画像モデルは高品質な画像を生成するが、推論は高価である。
1ステップモデルは、1ステップで画像にノイズをマッピングすることで、このコストを削減することを目的としている。
FIDに焦点を当てたモデル開発とCFGの選択は、いくつかの段階において誤解を招く可能性があることを示す。
論文 参考訳(メタデータ) (2026-03-15T02:22:27Z) - Generative Modeling with Bayesian Sample Inference [50.07758840675341]
我々は,反復的なガウス後部推論から新しい生成モデルを導出した。
我々のモデルは、未知のサンプルを反復的に絞り込むために、一連の予測と後続の更新ステップを使用する。
実験では,BFNと近縁な変分拡散モデルの両方に対して,ImageNet32のサンプル品質が向上することが実証された。
論文 参考訳(メタデータ) (2025-02-11T14:27:10Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Generative Visual Prompt: Unifying Distributional Control of Pre-Trained
Generative Models [77.47505141269035]
Generative Visual Prompt (PromptGen) は、事前訓練された生成モデルの分散制御のためのフレームワークである。
PromptGenはエネルギーベースモデル(EBM)を近似し、フィードフォワード方式で画像をサンプリングする。
コードはhttps://github.com/ChenWu98/Generative-Visual-Prompt.comで入手できる。
論文 参考訳(メタデータ) (2022-09-14T22:55:18Z) - Hierarchical Latent Structure for Multi-Modal Vehicle Trajectory
Forecasting [0.0]
VAEに基づく軌道予測モデルに階層的潜在構造を導入する。
本モデルでは,複数モーダルな軌道分布を明瞭に生成し,予測精度で最先端(SOTA)モデルより優れる。
論文 参考訳(メタデータ) (2022-07-11T04:52:28Z) - Self-Conditioned Generative Adversarial Networks for Image Editing [61.50205580051405]
Generative Adversarial Networks (GAN) はバイアスの影響を受けやすい。
我々は、このバイアスが公平性だけでなく、分布のコアから逸脱する際の潜在トラバース編集手法の崩壊に重要な役割を果たしていると論じる。
論文 参考訳(メタデータ) (2022-02-08T18:08:24Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。