論文の概要: AdaGen: Learning Adaptive Policy for Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.06993v1
- Date: Sat, 07 Mar 2026 02:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.588948
- Title: AdaGen: Learning Adaptive Policy for Image Synthesis
- Title(参考訳): AdaGen: 画像合成のための適応ポリシーの学習
- Authors: Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang,
- Abstract要約: AdaGenは、反復生成プロセスをスケジューリングするための一般的な、学習可能な、そしてサンプル適応型のフレームワークである。
AdaGen は3倍の推論コストで DiT-XL の性能向上を実現し、VAR の FID を 1.92 から 1.59 に改善した。
- 参考スコア(独自算出の注目度): 48.63446826766037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image synthesis have been propelled by powerful generative models, such as Masked Generative Transformers (MaskGIT), autoregressive models, diffusion models, and rectified flow models. A common principle behind their success is the decomposition of synthesis into multiple steps. However, this introduces a proliferation of step-specific parameters (e.g., noise level or temperature at each step). Existing approaches typically rely on manually-designed rules to manage this complexity, demanding expert knowledge and trial-and-error. Furthermore, these static schedules lack the flexibility to adapt to the unique characteristics of each sample, yielding sub-optimal performance. To address this issue, we present AdaGen, a general, learnable, and sample-adaptive framework for scheduling the iterative generation process. Specifically, we formulate the scheduling problem as a Markov Decision Process, where a lightweight policy network determines suitable parameters given the current generation state, and can be trained through reinforcement learning. Importantly, we demonstrate that simple reward designs, such as FID or pre-trained reward models, can be easily hacked and may not reliably guarantee the desired quality or diversity of generated samples. Therefore, we propose an adversarial reward design to guide the training of the policy networks. Finally, we introduce an inference-time refinement strategy and a controllable fidelity-diversity trade-off mechanism to further enhance the performance and flexibility of AdaGen. Comprehensive experiments on four generative paradigms validate the superiority of AdaGen. For example, AdaGen achieves better performance on DiT-XL with 3 times lower inference cost and improves the FID of VAR from 1.92 to 1.59 with negligible computational overhead.
- Abstract(参考訳): 画像合成の最近の進歩は、Masked Generative Transformers (MaskGIT)、自己回帰モデル、拡散モデル、修正フローモデルといった強力な生成モデルによって推進されている。
彼らの成功の裏にある一般的な原理は、合成を複数のステップに分解することである。
しかし、これはステップ固有のパラメータ(例えば、各ステップにおけるノイズレベルや温度)の拡散をもたらす。
既存のアプローチは通常、この複雑さを管理するために手作業で設計されたルールに依存し、専門家の知識と試行錯誤を要求する。
さらに、これらの静的スケジュールは、各サンプルのユニークな特性に適応する柔軟性に欠けており、準最適性能が得られる。
この問題に対処するため、我々は反復生成プロセスのスケジューリングのための一般的な、学習可能な、サンプル適応型フレームワークであるAdaGenを紹介した。
具体的には、スケジューリング問題をマルコフ決定プロセスとして定式化し、軽量なポリシーネットワークが現在の生成状態に与えられた適切なパラメータを決定し、強化学習を通じて訓練することができる。
重要なことは、FIDや事前訓練された報酬モデルのような単純な報酬設計は容易にハックでき、生成したサンプルの望ましい品質や多様性を確実に保証できないことである。
そこで本稿では,政策ネットワークのトレーニングを指導する対人報酬設計を提案する。
最後に、AdaGenの性能と柔軟性をさらに高めるため、推論時間改善戦略と制御可能なフィデリティ・多様性トレードオフ機構を導入する。
4つの生成パラダイムに関する総合的な実験は、AdaGenの優位性を検証する。
例えば、AdaGenは3倍の推論コストでDiT-XLの性能向上を実現し、VARのFIDを1.92から1.59に改善し、計算オーバーヘッドを無視できる。
関連論文リスト
- Plug-and-Play Controllable Generation for Discrete Masked Models [27.416952690340903]
本稿では、離散データ制御可能な生成モデリングのための離散マスクモデルについて述べる。
本稿では,条件付きスコアのトレーニングを回避した重要サンプリングに基づく新しいプラグアンドプレイフレームワークを提案する。
本フレームワークは,制御基準の選択に非依存であり,勾配情報を必要としないため,後方サンプリングやベイズ逆問題,制約生成などのタスクに適している。
論文 参考訳(メタデータ) (2024-10-03T02:00:40Z) - AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文 参考訳(メタデータ) (2024-08-31T03:53:57Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。