論文の概要: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.12164v3
- Date: Sun, 22 Dec 2024 08:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:56.638253
- Title: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning
- Title(参考訳): 選好型強化学習による主観的テキスト・ツー・イメージ生成
- Authors: Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan, Yeqing Li,
- Abstract要約: 我々は、信頼できる報酬信号を提供する$lambda$-Harmonic reward関数を提示する。
提案アルゴリズムは,最新のCLIP-Iスコア0.833,CLIP-Tスコア0.314をDreamBench上で達成する。
- 参考スコア(独自算出の注目度): 18.217337720633076
- License:
- Abstract: Text-to-image generative models have recently attracted considerable interest, enabling the synthesis of high-quality images from textual prompts. However, these models often lack the capability to generate specific subjects from given reference images or to synthesize novel renditions under varying conditions. Methods like DreamBooth and Subject-driven Text-to-Image (SuTI) have made significant progress in this area. Yet, both approaches primarily focus on enhancing similarity to reference images and require expensive setups, often overlooking the need for efficient training and avoiding overfitting to the reference images. In this work, we present the $\lambda$-Harmonic reward function, which provides a reliable reward signal and enables early stopping for faster training and effective regularization. By combining the Bradley-Terry preference model, the $\lambda$-Harmonic reward function also provides preference labels for subject-driven generation tasks. We propose Reward Preference Optimization (RPO), which offers a simpler setup (requiring only $3\%$ of the negative samples used by DreamBooth) and fewer gradient steps for fine-tuning. Unlike most existing methods, our approach does not require training a text encoder or optimizing text embeddings and achieves text-image alignment by fine-tuning only the U-Net component. Empirically, $\lambda$-Harmonic proves to be a reliable approach for model selection in subject-driven generation tasks. Based on preference labels and early stopping validation from the $\lambda$-Harmonic reward function, our algorithm achieves a state-of-the-art CLIP-I score of 0.833 and a CLIP-T score of 0.314 on DreamBench.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ生成モデルが注目され,テキスト・プロンプトから高品質な画像の合成が可能となった。
しかし、これらのモデルには、与えられた参照画像から特定の主題を生成する能力や、異なる条件下で新規な表現を合成する能力がないことが多い。
DreamBooth や Subject-driven Text-to-Image (SuTI) のような手法はこの分野で大きな進歩を遂げている。
しかし、どちらのアプローチも主に参照画像との類似性の向上に重点を置いており、しばしば効率的なトレーニングの必要性を見落とし、参照画像への過度な適合を避けるために高価なセットアップを必要としている。
本稿では,信頼度の高い報奨信号を提供する$\lambda$-Harmonic reward関数を提案する。
Bradley-Terry の選好モデルを組み合わせることで、$\lambda$-Harmonic reward関数は主観駆動生成タスクの選好ラベルも提供する。
本稿では,Reward Preference Optimization(RPO)を提案する。これはより簡単なセットアップ(DreamBoothが使用する負のサンプルのわずか$3\%)と,微調整のための勾配ステップの削減を実現する。
既存の方法とは異なり,本手法ではテキストエンコーダのトレーニングやテキスト埋め込みの最適化を必要とせず,U-Netコンポーネントのみを微調整することでテキストイメージアライメントを実現する。
経験的に、$\lambda$-Harmonicは、主観駆動生成タスクにおけるモデル選択の信頼性の高いアプローチであることが証明されている。
このアルゴリズムは、好みラベルと$\lambda$-Harmonic reward関数の早期停止検証に基づいて、最先端のCLIP-Iスコア0.833、DreamBenchのCLIP-Tスコア0.314を達成する。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - DiffChat: Learning to Chat with Text-to-Image Synthesis Models for
Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。
生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文 参考訳(メタデータ) (2024-03-08T02:24:27Z) - SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。
我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。
SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文 参考訳(メタデータ) (2023-12-08T18:44:09Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN
Space Optimization [37.318948462348054]
我々は、リトレーニングされたCLIP表現のパワーとオフザシェルフ画像生成器(GAN)を組み合わせることで、テキスト・ツー・イメージ生成にアプローチする。
異なる入力テキストによってプロモートされた場合、FuseDreamは、さまざまなオブジェクト、背景、芸術スタイル、さらには私たちが使用するトレーニングデータに現れない斬新な偽造概念を含む、高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-02T19:27:27Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。