Fugu-MT 論文翻訳(概要): Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation

論文の概要: Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation

arxiv url: http://arxiv.org/abs/2503.13070v2
Date: Mon, 09 Jun 2025 03:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 21:10:46.92269
Title: Reward-Instruct: A Reward-Centric Approach to Fast Photo-Realistic Image Generation
Title（参考訳）: Reward-Instruct: Reward-Centric Approach to Fast Photo-Realistic Image Generation
Authors: Yihong Luo, Tianyang Hu, Weijian Luo, Kenji Kawaguchi, Jing Tang,
Abstract要約: 本稿では、複雑な人間の嗜好に合わせた高品質で高速な画像生成を実現するという課題に対処する。 Reward-Instructは、トレーニング済みのベース拡散モデルから報酬強化された数ステップジェネレータに変換するための、新しくて驚くほどシンプルな報酬中心のアプローチである。テキスト・ツー・イメージ生成実験により,Reward-Instructは視覚的品質と定量的な測定結果が得られることを示した。
参考スコア（独自算出の注目度）: 25.29877217341663
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the challenge of achieving high-quality and fast image generation that aligns with complex human preferences. While recent advancements in diffusion models and distillation have enabled rapid generation, the effective integration of reward feedback for improved abilities like controllability and preference alignment remains a key open problem. Existing reward-guided post-training approaches targeting accelerated few-step generation often deem diffusion distillation losses indispensable. However, in this paper, we identify an interesting yet fundamental paradigm shift: as conditions become more specific, well-designed reward functions emerge as the primary driving force in training strong, few-step image generative models. Motivated by this insight, we introduce Reward-Instruct, a novel and surprisingly simple reward-centric approach for converting pre-trained base diffusion models into reward-enhanced few-step generators. Unlike existing methods, Reward-Instruct does not rely on expensive yet tricky diffusion distillation losses. Instead, it iteratively updates the few-step generator's parameters by directly sampling from a reward-tilted parameter distribution. Such a training approach entirely bypasses the need for expensive diffusion distillation losses, making it favorable to scale in high image resolutions. Despite its simplicity, Reward-Instruct yields surprisingly strong performance. Our extensive experiments on text-to-image generation have demonstrated that Reward-Instruct achieves state-of-the-art results in visual quality and quantitative metrics compared to distillation-reliant methods, while also exhibiting greater robustness to the choice of reward function.
Abstract（参考訳）: 本稿では、複雑な人間の嗜好に合わせた高品質で高速な画像生成を実現するという課題に対処する。近年の拡散モデルや蒸留の進歩により、迅速な生成が可能になったが、制御可能性や嗜好整合性といった能力向上のための報酬フィードバックの効果的な統合は、依然として重要な課題である。数段階の加速を目標とした既存の報酬誘導後訓練アプローチは、蒸留蒸留損失を必要不可欠とみなす。しかし,本論文では,条件がより具体化され,よく設計された報酬関数が,強い数ステップの画像生成モデルを訓練する上での原動力として出現する,興味深いパラダイムシフトを特定する。この知見に触発されたReward-Instructは、事前学習されたベース拡散モデルを報酬強化された数ステップジェネレータに変換するための、新しくて驚くほどシンプルな報酬中心のアプローチである。既存の方法とは異なり、Reward-Instructは高価ながトリッキーな拡散蒸留の損失に頼らない。代わりに、報酬型パラメータ分布から直接サンプリングすることで、数ステップのジェネレータのパラメータを反復的に更新する。このようなトレーニングアプローチは、高価な拡散蒸留損失の必要性を完全に回避し、高解像度でスケールすることが好ましい。その単純さにもかかわらず、Reward-Instructは驚くほど高いパフォーマンスを得る。テキスト・ツー・イメージ生成に関する広範な実験により、Reward-Instructは蒸留・回復法と比較して視覚的品質と定量的な測定結果を得るとともに、報酬関数の選択に対してより堅牢性を示すことを示した。

関連論文リスト

Harnessing Diffusion-Yielded Score Priors for Image Restoration [29.788482710572307]
深部画像復元モデルは、劣化した画像空間から自然画像空間へのマッピングを学習することを目的としている。 MSEベース、GANベース、拡散ベースメソッドの3つの主要なクラスが登場した。これらの課題に対処するための新しい手法HYPIRを提案する。
論文参考訳（メタデータ） (2025-07-28T07:55:34Z)
Quick Bypass Mechanism of Zero-Shot Diffusion-Based Image Restoration [0.8192907805418583]
そこで本研究では,中間近似から初期化することでデノナイジング過程を高速化し,早期デノナイジングステップを効果的に回避する戦略を提案する。我々は,超高解像度,デブロアリング,圧縮センシングなど,複数の画像復元タスクにまたがるImageNet-1KとCelebAHQの手法を検証した。
論文参考訳（メタデータ） (2025-07-06T01:36:27Z)
InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文参考訳（メタデータ） (2025-04-22T01:19:53Z)
Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.08660401151558]
本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。 textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文参考訳（メタデータ） (2025-02-17T06:28:53Z)
Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文参考訳（メタデータ） (2025-01-31T09:53:47Z)
Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:43Z)
TSD-SR: One-Step Diffusion with Target Score Distillation for Real-World Image Super-Resolution [25.994093587158808]
事前訓練されたテキスト-画像拡散モデルが、現実の画像超解像(Real-ISR)タスクにますます応用されている。拡散モデルの反復的洗練された性質を考えると、既存のアプローチのほとんどは計算的に高価である。実世界の超高解像度画像に特化して設計された新しい蒸留フレームワークであるTLD-SRを提案する。
論文参考訳（メタデータ） (2024-11-27T12:01:08Z)
Reward Incremental Learning in Text-to-Image Generation [26.64026346266299]
本稿では,計算オーバーヘッドを最小限に抑える方法であるReward Incremental Distillation(RID)を提案する。実験結果から,RILシナリオにおける一貫した高次勾配生成の実現におけるRIDの有効性が示された。
論文参考訳（メタデータ） (2024-11-26T10:54:33Z)
InstantIR: Blind Image Restoration with Instant Generative Reference [10.703499573064537]
本稿では,新しい拡散型BIR法であるInstant-Reference Image Restoration(InstantIR)を紹介する。まず、事前学習された視覚エンコーダを介して入力のコンパクトな表現を抽出する。各生成ステップにおいて、この表現は、電流拡散潜時をデコードし、生成前でインスタンス化する。劣化した画像をこの参照で符号化し、堅牢な生成条件を提供する。
論文参考訳（メタデータ） (2024-10-09T05:15:29Z)
Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文参考訳（メタデータ） (2024-09-09T16:27:26Z)
One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文参考訳（メタデータ） (2024-08-14T11:47:22Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
AddSR: Accelerating Diffusion-based Blind Super-Resolution with Adversarial Diffusion Distillation [42.34219615630592]
低分解能入力からの複雑な詳細で鮮明な高分解能画像の再構成における, 安定拡散ショーケースに基づくブラインド超解像法その実用性はしばしば、数千から数百のサンプリングステップの要求に起因して、効率の悪さによって妨げられる。効率の良い逆拡散蒸留 (ADD) にインスパイアされた我々は, 蒸留と制御ネットの両方のアイデアを取り入れることでこの問題に対処する。
論文参考訳（メタデータ） (2024-04-02T08:07:38Z)
Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文参考訳（メタデータ） (2024-03-12T05:06:07Z)
JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文参考訳（メタデータ） (2023-12-20T08:05:57Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-02T17:59:18Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文参考訳（メタデータ） (2023-09-19T17:51:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。