Fugu-MT 論文翻訳(概要): Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models

論文の概要: Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2405.00760v1
Date: Wed, 1 May 2024 15:26:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 20:42:37.172931
Title: Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models
Title（参考訳）: テキストと画像の拡散モデル調整のための深部回帰シミュレーション
Authors: Xiaoshi Wu, Yiming Hao, Manyuan Zhang, Keqiang Sun, Zhaoyang Huang, Guanglu Song, Yu Liu, Hongsheng Li,
Abstract要約: Deep Reward Tuning (DRTune) はテキストから画像への拡散モデルの最終的な出力画像を監督するアルゴリズムである。 DRTuneは、特に低レベル制御信号において、他のアルゴリズムよりも一貫して優れている。
参考スコア（独自算出の注目度）: 42.28905346604424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Optimizing a text-to-image diffusion model with a given reward function is an important but underexplored research area. In this study, we propose Deep Reward Tuning (DRTune), an algorithm that directly supervises the final output image of a text-to-image diffusion model and back-propagates through the iterative sampling process to the input noise. We find that training earlier steps in the sampling process is crucial for low-level rewards, and deep supervision can be achieved efficiently and effectively by stopping the gradient of the denoising network input. DRTune is extensively evaluated on various reward models. It consistently outperforms other algorithms, particularly for low-level control signals, where all shallow supervision methods fail. Additionally, we fine-tune Stable Diffusion XL 1.0 (SDXL 1.0) model via DRTune to optimize Human Preference Score v2.1, resulting in the Favorable Diffusion XL 1.0 (FDXL 1.0) model. FDXL 1.0 significantly enhances image quality compared to SDXL 1.0 and reaches comparable quality compared with Midjourney v5.2.
Abstract（参考訳）: 与えられた報酬関数を用いたテキスト・画像拡散モデルの最適化は重要であるが、未探索の研究領域である。本研究では,テキスト・ツー・イメージ拡散モデルの最終出力画像を直接監督し,繰り返しサンプリング処理から入力ノイズへのバックプロパゲートを行うアルゴリズムであるDeep Reward Tuning(DRTune)を提案する。サンプリングプロセスにおける早期の訓練は,低レベルの報奨に不可欠であり,ネットワーク入力の勾配を抑えることにより,より効率的に,効果的に深層監視を行うことができることがわかった。 DRTuneは様々な報酬モデルで広く評価されている。他のアルゴリズム、特に浅い監視方法がすべて失敗する低レベル制御信号よりも一貫して優れています。さらに、DRTuneを介して安定拡散XL 1.0(SDXL 1.0)モデルを微調整し、Human Preference Score v2.1を最適化し、FDXL 1.0(Favorable Diffusion XL 1.0)モデルを作成する。 FDXL 1.0はSDXL 1.0に比べて画質が大幅に向上し、Midjourney v5.2と同等の画質に達した。

関連論文リスト

Diffusion Probe: Generated Image Result Prediction Using CNN Probes [33.97515945308048]
テキスト・ツー・イメージ(T2I)拡散モデルには、早期品質評価のための効率的なメカニズムが欠けている。 Diffusion Probeは、内部横断マップを予測信号として利用するフレームワークである。拡散プローブはモデルに依存しない、効率的で、広く適用でき、T2I生成効率を改善するための実用的なソリューションを提供する。
論文参考訳（メタデータ） (2026-02-27T08:24:47Z)
ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion [18.25085327318649]
ProxT2Iと呼ばれる後方離散化に基づくテキスト・トゥ・イメージ(T2I)拡散モデルを開発した。我々は, LAION-Face-T2I-15Mと呼ばれる, 微細なキャプションを持つ1500万個の高品質な人物画像からなる, 大規模かつオープンソースなデータセットを開発した。
論文参考訳（メタデータ） (2025-11-24T04:10:53Z)
ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文参考訳（メタデータ） (2025-03-05T04:50:53Z)
Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文参考訳（メタデータ） (2024-12-12T07:24:13Z)
Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models [8.352666876052616]
Diff-Instruct* (DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するための画像データフリーアプローチである。我々は、人間のフィードバックを用いたオンライン強化学習として、人間の好みのアライメントを定めている。正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベース発散正規化を導入する。
論文参考訳（メタデータ） (2024-10-28T10:26:19Z)
Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models [35.61297232307485]
チェーンの開始に対して、ガイダンスが明らかに有害であることを示します。これにより、特定のノイズレベルに制限し、推論速度と結果品質の両方を改善します。
論文参考訳（メタデータ） (2024-04-11T13:16:47Z)
Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文参考訳（メタデータ） (2024-03-25T15:58:26Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文参考訳（メタデータ） (2023-11-21T15:24:05Z)
Underwater Image Enhancement by Transformer-based Diffusion Model with Non-uniform Sampling for Skip Strategy [2.056162650908794]
水中シーンにおける拡散モデルを用いた画像強調手法を提案する。本手法は,条件付き拡散確率モデルに適応し,対応する拡張画像を生成する。実験結果から,本手法は競争性能と高い効率を両立できることが示された。
論文参考訳（メタデータ） (2023-09-07T01:58:06Z)
ACDMSR: Accelerated Conditional Diffusion Models for Single Image Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文参考訳（メタデータ） (2023-07-03T06:49:04Z)
Decoupled Diffusion Models: Simultaneous Image to Zero and Zero to Noise [53.04220377034574]
10機能未満の高画質(未条件)の画像生成のためのデカップリング拡散モデル(DDM)を提案する。我々は,1) 画像から0遷移までをモデル化した解析的遷移確率に基づいて, 学習目標と(2) サンプリング式を逆時間に導出する。 1)無条件画像生成, CIFAR-10, CelebA-HQ-256, 2)超解像, 塩分検出, エッジ検出, 画像入力などの下流処理, テキスト処理, テキスト処理, テキスト処理, テキスト処理, 画像処理, 画像処理などと比較して, 非常に競争力のある性能が得られる。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。