論文の概要: DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.14070v1
- Date: Wed, 19 Feb 2025 19:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:23.620714
- Title: DiffExp: Efficient Exploration in Reward Fine-tuning for Text-to-Image Diffusion Models
- Title(参考訳): DiffExp: テキスト-画像拡散モデルのための逆微調整における効率的な探索
- Authors: Daewon Chae, June Suk Choi, Jinkyu Kim, Kimin Lee,
- Abstract要約: 報酬を最大化するための微調整されたテキスト・ツー・イメージモデルは、モデル性能を向上させるのに有効であることが証明された。
微調整法は、しばしばオンラインサンプル生成による緩やかな収束に悩まされる。
DiffExpは、テキスト・ツー・イメージ・モデルの微調整のための、シンプルで効果的な探索戦略である。
- 参考スコア(独自算出の注目度): 27.526986578076613
- License:
- Abstract: Fine-tuning text-to-image diffusion models to maximize rewards has proven effective for enhancing model performance. However, reward fine-tuning methods often suffer from slow convergence due to online sample generation. Therefore, obtaining diverse samples with strong reward signals is crucial for improving sample efficiency and overall performance. In this work, we introduce DiffExp, a simple yet effective exploration strategy for reward fine-tuning of text-to-image models. Our approach employs two key strategies: (a) dynamically adjusting the scale of classifier-free guidance to enhance sample diversity, and (b) randomly weighting phrases of the text prompt to exploit high-quality reward signals. We demonstrate that these strategies significantly enhance exploration during online sample generation, improving the sample efficiency of recent reward fine-tuning methods, such as DDPO and AlignProp.
- Abstract(参考訳): 報酬を最大化するための微調整テキスト・画像拡散モデルは、モデル性能の向上に有効であることが証明された。
しかし、報酬の微調整手法は、しばしばオンラインサンプル生成による緩やかな収束に悩まされる。
したがって, 高い報奨信号を持つ多種多様な試料の取得は, 試料効率の向上と全体的な性能向上に不可欠である。
そこで本研究では,テキスト・ツー・イメージ・モデルの微調整のための簡易かつ効果的な探索手法であるDiffExpを紹介する。
私たちのアプローチでは,2つの重要な戦略を採用しています。
(a) 標本多様性を高めるために分類器フリーガイダンスの尺度を動的に調整し、
b) テキストのフレーズをランダムに重み付けして、高品質な報酬信号を利用する。
これらの戦略は,オンラインサンプル生成における探索を著しく向上させ,DDPOやAlignPropといった最近の報酬微調整手法のサンプル効率を向上させることを実証する。
関連論文リスト
- Saliency Guided Optimization of Diffusion Latents [9.237421522280819]
テキスト・ツー・イメージ生成の鍵となるのは、テキスト・ツー・イメージ生成モデルの結果を最適化して、人間の意図やプロンプトに適合するようにする方法である。
これらの手法は、画像を見るとき、人間の視覚系が自然に正常な領域への注意を優先し、少ない領域や非塩分領域を無視するという事実を見落としている。
本稿では、このアライメント課題を効果的かつ効率的に解決するために、潜伏者の衛生指導最適化(SGOOL)を提案する。
論文 参考訳(メタデータ) (2024-10-14T08:12:42Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Directly Fine-Tuning Diffusion Models on Differentiable Rewards [22.1685707267062]
本稿では,微分可能報酬関数を最大化するために,拡散モデルを微調整するダイレクト・リワード・ファイン・チューニング(DRaFT)を提案する。
まず,全サンプリング手順で報酬関数勾配を逆伝播させることで,様々な報酬に対して高い性能が得られることを示す。
提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-09-29T17:01:02Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - ReSmooth: Detecting and Utilizing OOD Samples when Training with Data
Augmentation [57.38418881020046]
最近のDA技術は、常に強化トレーニングサンプルの多様性の必要性を満たす。
多様性の高い増分戦略は、通常、アウト・オブ・ディストリビューション(OOD)の増分サンプルを導入する。
ReSmoothは、まず、拡張サンプル中のOODサンプルを検知し、それらを活用するフレームワークである。
論文 参考訳(メタデータ) (2022-05-25T09:29:27Z) - Improving Gradient-based Adversarial Training for Text Classification by
Contrastive Learning and Auto-Encoder [18.375585982984845]
我々は,モデルの訓練過程において,勾配に基づく敵攻撃を防御するモデルの能力の向上に焦点をあてる。
本稿では, CARL と RAR の2つの新しい対戦訓練手法を提案する。
実験により,提案した2つの手法は,テキスト分類データセットにおいて高いベースラインを達成していることが示された。
論文 参考訳(メタデータ) (2021-09-14T09:08:58Z) - Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation [101.01649070998532]
本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。
本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-01-05T05:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。