論文の概要: Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2503.13070v1
- Date: Mon, 17 Mar 2025 11:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:19.417201
- Title: Rewards Are Enough for Fast Photo-Realistic Text-to-image Generation
- Title(参考訳): 高速な写真リアリスティックテキスト・画像生成のためのリワード
- Authors: Yihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang,
- Abstract要約: 正規化報酬による新しい条件生成手法であるR0を導入する。
我々は、R0を用いて、最先端の数ステップのテキスト・ツー・イメージ生成モデルを訓練する。
本研究は,従来の拡散後学習と条件生成の知恵に挑戦するものである。
- 参考スコア(独自算出の注目度): 25.29877217341663
- License:
- Abstract: Aligning generated images to complicated text prompts and human preferences is a central challenge in Artificial Intelligence-Generated Content (AIGC). With reward-enhanced diffusion distillation emerging as a promising approach that boosts controllability and fidelity of text-to-image models, we identify a fundamental paradigm shift: as conditions become more specific and reward signals stronger, the rewards themselves become the dominant force in generation. In contrast, the diffusion losses serve as an overly expensive form of regularization. To thoroughly validate our hypothesis, we introduce R0, a novel conditional generation approach via regularized reward maximization. Instead of relying on tricky diffusion distillation losses, R0 proposes a new perspective that treats image generations as an optimization problem in data space which aims to search for valid images that have high compositional rewards. By innovative designs of the generator parameterization and proper regularization techniques, we train state-of-the-art few-step text-to-image generative models with R0 at scales. Our results challenge the conventional wisdom of diffusion post-training and conditional generation by demonstrating that rewards play a dominant role in scenarios with complex conditions. We hope our findings can contribute to further research into human-centric and reward-centric generation paradigms across the broader field of AIGC. Code is available at https://github.com/Luo-Yihong/R0.
- Abstract(参考訳): 生成した画像を複雑なテキストプロンプトや人間の好みに合わせることは、AIGC(Artificial Intelligence-Generated Content)における中心的な課題である。
報酬強化拡散蒸留は、テキスト・ツー・イメージモデルの制御性と忠実性を高める有望なアプローチとして登場し、条件がより具体化され、報酬信号が強くなるにつれて、報酬そのものが世代において支配的な力となる、基本的なパラダイムシフトを特定する。
対照的に拡散損失は極端に高価な正規化形式として機能する。
我々の仮説を徹底的に検証するために、正規化報酬最大化による新しい条件生成手法R0を導入する。
複雑な拡散蒸留損失に頼る代わりに、R0は画像生成をデータ空間の最適化問題として扱う新しい視点を提案する。
ジェネレータのパラメータ化と適切な正規化手法の革新的設計により、R0で数段階のテキスト・ツー・イメージ生成モデルを訓練する。
本研究は,複雑な状況のシナリオにおいて,報酬が支配的な役割を担っていることを示すことによって,従来の拡散後学習と条件生成の知恵に挑戦する。
我々は、AIGCの幅広い分野における人間中心および報酬中心の世代パラダイムのさらなる研究に、我々の発見が貢献できることを期待している。
コードはhttps://github.com/Luo-Yihong/R0.comで入手できる。
関連論文リスト
- Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.08660401151558]
本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。
textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文 参考訳(メタデータ) (2025-02-17T06:28:53Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - InstantIR: Blind Image Restoration with Instant Generative Reference [10.703499573064537]
本稿では,新しい拡散型BIR法であるInstant-Reference Image Restoration(InstantIR)を紹介する。
まず、事前学習された視覚エンコーダを介して入力のコンパクトな表現を抽出する。
各生成ステップにおいて、この表現は、電流拡散潜時をデコードし、生成前でインスタンス化する。
劣化した画像をこの参照で符号化し、堅牢な生成条件を提供する。
論文 参考訳(メタデータ) (2024-10-09T05:15:29Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。