Fugu-MT 論文翻訳(概要): Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning

論文の概要: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.12164v1
Date: Tue, 16 Jul 2024 20:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 19:08:36.770812
Title: Subject-driven Text-to-Image Generation via Preference-based Reinforcement Learning
Title（参考訳）: 選好型強化学習による主観的テキスト・ツー・イメージ生成
Authors: Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan, Yeqing Li,
Abstract要約: 我々は、信頼できる報酬信号を提供する$lambda$-Harmonic reward関数を提示する。提案アルゴリズムは,最新のCLIP-Iスコア0.833,CLIP-Tスコア0.314をDreamBench上で達成する。
参考スコア（独自算出の注目度）: 18.217337720633076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image generative models have recently attracted considerable interest, enabling the synthesis of high-quality images from textual prompts. However, these models often lack the capability to generate specific subjects from given reference images or to synthesize novel renditions under varying conditions. Methods like DreamBooth and Subject-driven Text-to-Image (SuTI) have made significant progress in this area. Yet, both approaches primarily focus on enhancing similarity to reference images and require expensive setups, often overlooking the need for efficient training and avoiding overfitting to the reference images. In this work, we present the $\lambda$-Harmonic reward function, which provides a reliable reward signal and enables early stopping for faster training and effective regularization. By combining the Bradley-Terry preference model, the $\lambda$-Harmonic reward function also provides preference labels for subject-driven generation tasks. We propose Reward Preference Optimization (RPO), which offers a simpler setup (requiring only $3\%$ of the negative samples used by DreamBooth) and fewer gradient steps for fine-tuning. Unlike most existing methods, our approach does not require training a text encoder or optimizing text embeddings and achieves text-image alignment by fine-tuning only the U-Net component. Empirically, $\lambda$-Harmonic proves to be a reliable approach for model selection in subject-driven generation tasks. Based on preference labels and early stopping validation from the $\lambda$-Harmonic reward function, our algorithm achieves a state-of-the-art CLIP-I score of 0.833 and a CLIP-T score of 0.314 on DreamBench.
Abstract（参考訳）: 近年,テキスト・ツー・イメージ生成モデルが注目され,テキスト・プロンプトから高品質な画像の合成が可能となった。しかし、これらのモデルには、与えられた参照画像から特定の主題を生成する能力や、異なる条件下で新規な表現を合成する能力がないことが多い。 DreamBooth や Subject-driven Text-to-Image (SuTI) のような手法はこの分野で大きな進歩を遂げている。しかし、どちらのアプローチも主に参照画像との類似性の向上に重点を置いており、しばしば効率的なトレーニングの必要性を見落とし、参照画像への過度な適合を避けるために高価なセットアップを必要としている。本稿では,信頼度の高い報奨信号を提供する$\lambda$-Harmonic reward関数を提案する。 Bradley-Terry の選好モデルを組み合わせることで、$\lambda$-Harmonic reward関数は主観駆動生成タスクの選好ラベルも提供する。本稿では,Reward Preference Optimization(RPO)を提案する。これはより簡単なセットアップ(DreamBoothが使用する負のサンプルのわずか$3\%)と,微調整のための勾配ステップの削減を実現する。既存の方法とは異なり,本手法ではテキストエンコーダのトレーニングやテキスト埋め込みの最適化を必要とせず,U-Netコンポーネントのみを微調整することでテキストイメージアライメントを実現する。経験的に、$\lambda$-Harmonicは、主観駆動生成タスクにおけるモデル選択の信頼性の高いアプローチであることが証明されている。このアルゴリズムは、好みラベルと$\lambda$-Harmonic reward関数の早期停止検証に基づいて、最先端のCLIP-Iスコア0.833、DreamBenchのCLIP-Tスコア0.314を達成する。

関連論文リスト

Cost-Aware Routing for Efficient Text-To-Image Generation [19.848723289971208]
本稿では,その複雑さに応じて,各プロンプト毎に計算量を変動させるフレームワークを提案する。私たちは、COCOとDiffusionDBで、すでに訓練された9つのテキスト・ツー・イメージモデルへのルートを学ぶことで、これらのモデルだけで達成可能な平均品質を提供することができることを実証的に示しています。
論文参考訳（メタデータ） (2025-06-17T17:48:50Z)
Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation [21.181545626612028]
被験者駆動画像生成のためのトレーニング不要なフレームワークであるFreeGraftorを提案する。 FreeGraftorは、参照対象から生成された画像へ視覚的詳細を転送するために、セマンティックマッチングと位置制約付き注意融合を使用している。本フレームワークは,マルチオブジェクト生成にシームレスに拡張可能であり,実世界の展開に有効である。
論文参考訳（メタデータ） (2025-04-22T14:55:23Z)
Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。 RLの有効性はスパース報酬の挑戦によって制限される。 $textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文参考訳（メタデータ） (2025-03-14T09:45:19Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文参考訳（メタデータ） (2024-04-05T13:44:39Z)
DiffChat: Learning to Chat with Text-to-Image Synthesis Models for Interactive Image Creation [40.478839423995296]
DiffChatは、対話型画像生成のための、インプット・アズ・インプット・テキスト・トゥ・イメージ合成(TIS)モデルと、大規模言語モデル(LLM)を"チャット"に整合させる新しい手法である。生のプロンプト/イメージとユーザが指定した命令が与えられた場合、DiffChatは効果的に適切な修正を行い、ターゲットのプロンプトを生成する。
論文参考訳（メタデータ） (2024-03-08T02:24:27Z)
SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation [1.5892730797514436]
テキストと画像の拡散モデルは、しばしば遅い反復的なサンプリングプロセスに悩まされる。我々は$textbfSwiftBrush$という新しいイメージフリー蒸留方式を提案する。 SwiftBrushは、COCO-30Kベンチマークで、$textbf16.67$のFIDスコアと$textbf0.29$のCLIPスコアを達成している。
論文参考訳（メタデータ） (2023-12-08T18:44:09Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval [14.986283867293048]
ゼロショット合成画像検索(ZS-CIR)は、テキスト修正と参照画像をクエリとして行い、トリプルトラベルなしでターゲット画像を取得する。現在のZS-CIRの研究は、主に事前訓練された視覚言語モデルの一般化能力に依存している。本稿では,事前学習された視覚言語モデルと下流CIRタスクとのギャップを小さくする,未ラベルで事前学習されたマスク付きチューニング手法を提案する。
論文参考訳（メタデータ） (2023-11-13T02:49:57Z)
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文参考訳（メタデータ） (2023-09-27T17:30:19Z)
FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization [37.318948462348054]
我々は、リトレーニングされたCLIP表現のパワーとオフザシェルフ画像生成器(GAN)を組み合わせることで、テキスト・ツー・イメージ生成にアプローチする。異なる入力テキストによってプロモートされた場合、FuseDreamは、さまざまなオブジェクト、背景、芸術スタイル、さらには私たちが使用するトレーニングデータに現れない斬新な偽造概念を含む、高品質な画像を生成することができる。
論文参考訳（メタデータ） (2021-12-02T19:27:27Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
Spatial-Separated Curve Rendering Network for Efficient and High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。提案手法は従来の手法と比較して90%以上のパラメータを減少させる。提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文参考訳（メタデータ） (2021-09-13T07:20:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。