論文の概要: Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation
- arxiv url: http://arxiv.org/abs/2503.13070v2
- Date: Mon, 09 Jun 2025 03:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.92269
- Title: Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation
- Title(参考訳): Reward-Instruct: Reward-Centric Approach to Fast Photo-Realistic Image Generation
- Authors: Yihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang,
- Abstract要約: 本稿では、複雑な人間の嗜好に合わせた高品質で高速な画像生成を実現するという課題に対処する。
Reward-Instructは、トレーニング済みのベース拡散モデルから報酬強化された数ステップジェネレータに変換するための、新しくて驚くほどシンプルな報酬中心のアプローチである。
テキスト・ツー・イメージ生成実験により,Reward-Instructは視覚的品質と定量的な測定結果が得られることを示した。
- 参考スコア(独自算出の注目度): 25.29877217341663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of achieving high-quality and fast image generation that aligns with complex human preferences. While recent advancements in diffusion models and distillation have enabled rapid generation, the effective integration of reward feedback for improved abilities like controllability and preference alignment remains a key open problem. Existing reward-guided post-training approaches targeting accelerated few-step generation often deem diffusion distillation losses indispensable. However, in this paper, we identify an interesting yet fundamental paradigm shift: as conditions become more specific, well-designed reward functions emerge as the primary driving force in training strong, few-step image generative models. Motivated by this insight, we introduce Reward-Instruct, a novel and surprisingly simple reward-centric approach for converting pre-trained base diffusion models into reward-enhanced few-step generators. Unlike existing methods, Reward-Instruct does not rely on expensive yet tricky diffusion distillation losses. Instead, it iteratively updates the few-step generator's parameters by directly sampling from a reward-tilted parameter distribution. Such a training approach entirely bypasses the need for expensive diffusion distillation losses, making it favorable to scale in high image resolutions. Despite its simplicity, Reward-Instruct yields surprisingly strong performance. Our extensive experiments on text-to-image generation have demonstrated that Reward-Instruct achieves state-of-the-art results in visual quality and quantitative metrics compared to distillation-reliant methods, while also exhibiting greater robustness to the choice of reward function.
- Abstract(参考訳): 本稿では、複雑な人間の嗜好に合わせた高品質で高速な画像生成を実現するという課題に対処する。
近年の拡散モデルや蒸留の進歩により、迅速な生成が可能になったが、制御可能性や嗜好整合性といった能力向上のための報酬フィードバックの効果的な統合は、依然として重要な課題である。
数段階の加速を目標とした既存の報酬誘導後訓練アプローチは、蒸留蒸留損失を必要不可欠とみなす。
しかし,本論文では,条件がより具体化され,よく設計された報酬関数が,強い数ステップの画像生成モデルを訓練する上での原動力として出現する,興味深いパラダイムシフトを特定する。
この知見に触発されたReward-Instructは、事前学習されたベース拡散モデルを報酬強化された数ステップジェネレータに変換するための、新しくて驚くほどシンプルな報酬中心のアプローチである。
既存の方法とは異なり、Reward-Instructは高価ながトリッキーな拡散蒸留の損失に頼らない。
代わりに、報酬型パラメータ分布から直接サンプリングすることで、数ステップのジェネレータのパラメータを反復的に更新する。
このようなトレーニングアプローチは、高価な拡散蒸留損失の必要性を完全に回避し、高解像度でスケールすることが好ましい。
その単純さにもかかわらず、Reward-Instructは驚くほど高いパフォーマンスを得る。
テキスト・ツー・イメージ生成に関する広範な実験により、Reward-Instructは蒸留・回復法と比較して視覚的品質と定量的な測定結果を得るとともに、報酬関数の選択に対してより堅牢性を示すことを示した。
関連論文リスト
- Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.08660401151558]
本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。
textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文 参考訳(メタデータ) (2025-02-17T06:28:53Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。
実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文 参考訳(メタデータ) (2024-11-26T10:54:33Z) - InstantIR: Blind Image Restoration with Instant Generative Reference [10.703499573064537]
本稿では,新しい拡散型BIR法であるInstant-Reference Image Restoration(InstantIR)を紹介する。
まず、事前学習された視覚エンコーダを介して入力のコンパクトな表現を抽出する。
各生成ステップにおいて、この表現は、電流拡散潜時をデコードし、生成前でインスタンス化する。
劣化した画像をこの参照で符号化し、堅牢な生成条件を提供する。
論文 参考訳(メタデータ) (2024-10-09T05:15:29Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。