Fugu-MT 論文翻訳(概要): DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models

論文の概要: DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2502.14070v1
Date: Wed, 19 Feb 2025 19:47:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.39518
Title: DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models
Title（参考訳）: DiffExp: テキスト-画像拡散モデルのための逆微調整における効率的な探索
Authors: Daewon Chae, June Suk Choi, Jinkyu Kim, Kimin Lee,
Abstract要約: 報酬を最大化するための微調整されたテキスト・ツー・イメージモデルは、モデル性能を向上させるのに有効であることが証明された。微調整法は、しばしばオンラインサンプル生成による緩やかな収束に悩まされる。 DiffExpは、テキスト・ツー・イメージ・モデルの微調整のための、シンプルで効果的な探索戦略である。
参考スコア（独自算出の注目度）: 27.526986578076613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning text-to-image diffusion models to maximize rewards has proven effective for enhancing model performance. However, reward fine-tuning methods often suffer from slow convergence due to online sample generation. Therefore, obtaining diverse samples with strong reward signals is crucial for improving sample efficiency and overall performance. In this work, we introduce DiffExp, a simple yet effective exploration strategy for reward fine-tuning of text-to-image models. Our approach employs two key strategies: (a) dynamically adjusting the scale of classifier-free guidance to enhance sample diversity, and (b) randomly weighting phrases of the text prompt to exploit high-quality reward signals. We demonstrate that these strategies significantly enhance exploration during online sample generation, improving the sample efficiency of recent reward fine-tuning methods, such as DDPO and AlignProp.
Abstract（参考訳）: 報酬を最大化するための微調整テキスト・画像拡散モデルは、モデル性能の向上に有効であることが証明された。しかし、報酬の微調整手法は、しばしばオンラインサンプル生成による緩やかな収束に悩まされる。したがって, 高い報奨信号を持つ多種多様な試料の取得は, 試料効率の向上と全体的な性能向上に不可欠である。そこで本研究では,テキスト・ツー・イメージ・モデルの微調整のための簡易かつ効果的な探索手法であるDiffExpを紹介する。私たちのアプローチでは,2つの重要な戦略を採用しています。 (a) 標本多様性を高めるために分類器フリーガイダンスの尺度を動的に調整し、 b) テキストのフレーズをランダムに重み付けして、高品質な報酬信号を利用する。これらの戦略は,オンラインサンプル生成における探索を著しく向上させ,DDPOやAlignPropといった最近の報酬微調整手法のサンプル効率を向上させることを実証する。

関連論文リスト

Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文参考訳（メタデータ） (2025-06-16T17:59:40Z)
Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。 CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文参考訳（メタデータ） (2025-05-29T11:08:24Z)
InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文参考訳（メタデータ） (2025-04-22T01:19:53Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.08660401151558]
本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。 textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文参考訳（メタデータ） (2025-02-17T06:28:53Z)
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文参考訳（メタデータ） (2024-12-10T18:59:58Z)
Saliency Guided Optimization of Diffusion Latents [9.237421522280819]
テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。本稿では、このアライメント課題を効果的かつ効率的に解決するために、潜伏者の衛生指導最適化(SGOOL)を提案する。
論文参考訳（メタデータ） (2024-10-14T08:12:42Z)
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文参考訳（メタデータ） (2024-03-12T00:02:03Z)
Learning Better with Less: Effective Augmentation for Sample-Efficient Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文参考訳（メタデータ） (2023-05-25T15:46:20Z)
Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文参考訳（メタデータ） (2023-02-05T04:44:35Z)
ReSmooth: Detecting and Utilizing OOD Samples when Training with Data Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。 ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文参考訳（メタデータ） (2022-05-25T09:29:27Z)
Improving Gradient-based Adversarial Training for Text Classification by Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文参考訳（メタデータ） (2021-09-14T09:08:58Z)
Informative Sample Mining Network for Multi-Domain Image-to-Image Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文参考訳（メタデータ） (2020-01-05T05:48:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。