Fugu-MT 論文翻訳(概要): Iterative Prompt Relabeling for diffusion model with RLDF

論文の概要: Iterative Prompt Relabeling for diffusion model with RLDF

arxiv url: http://arxiv.org/abs/2312.16204v1
Date: Sat, 23 Dec 2023 11:10:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-31 03:02:55.443696
Title: Iterative Prompt Relabeling for diffusion model with RLDF
Title（参考訳）: RLDF拡散モデルに対する反復的プロンプトリラベル法
Authors: Jiaxin Ge, Xinyan Chen, Tianjun Zhang, Shanghang Zhang
Abstract要約: 拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。本稿では,反復的な画像サンプリングとプロンプト・レバーベリングにより,画像とテキストを協調する新しいアルゴリズムIP-RLDFを提案する。 SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。
参考スコア（独自算出の注目度）: 32.60206876828442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown impressive performance in many domains, including image generation, time series prediction, and reinforcement learning. The algorithm demonstrates superior performance over the traditional GAN and transformer based methods. However, the model's capability to follow natural language instructions (e.g., spatial relationships between objects, generating complex scenes) is still unsatisfactory. This has been an important research area to enhance such capability. Prior works adopt reinforcement learning to adjust the behavior of the diffusion models. However, RL methods not only require careful reward design and complex hyperparameter tuning, but also fails to incorporate rich natural language feedback. In this work, we propose iterative prompt relabeling (IP-RLDF), a novel algorithm that aligns images to text through iterative image sampling and prompt relabeling. IP-RLDF first samples a batch of images conditioned on the text, then relabels the text prompts of unmatched text-image pairs with classifier feedback. We conduct thorough experiments on three different models, including SDv2, GLIGEN, and SDXL, testing their capability to generate images following instructions. With IP-RLDF, we improved up to 15.22% (absolute improvement) on the challenging spatial relation VISOR benchmark, demonstrating superior performance compared to previous RL methods.
Abstract（参考訳）: 拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。このアルゴリズムは従来のGAN法やトランスフォーマー法よりも優れた性能を示す。しかし、モデルが自然言語命令に従う能力(オブジェクト間の空間的関係、複雑なシーンを生成するなど)はまだ不十分である。このような能力を高めるための重要な研究分野である。先行研究では、拡散モデルの振る舞いを調整するために強化学習を採用する。しかし、rl法は注意深い報酬設計と複雑なハイパーパラメータチューニングを必要とするだけでなく、豊富な自然言語フィードバックを取り入れることができない。本稿では,反復的な画像サンプリングとプロンプト・レザベリングにより,画像とテキストを協調する新しいアルゴリズムであるIP-RLDFを提案する。 IP-RLDFはまずテキストに条件付き画像のバッチをサンプリングし、未マッチングのテキストイメージペアのテキストプロンプトに分類器のフィードバックをラベル付けする。 SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。また,IP-RLDFでは,従来のRL法よりも優れた性能を示すとともに,空間関係の困難さを最大15.22%改善した。

関連論文リスト

FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-05T18:36:33Z)
Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences [28.683767105094393]
本稿では,周期整合性を監視信号として活用する手法を提案する。テキスト・ツー・イメージ・モデルを用いてテキストを画像空間にマッピングし、元の画像と再構成との類似性を計算する。サイクル一貫性スコアを用いて候補をランク付けし、866K比較ペアの選好データセットを構築する。
論文参考訳（メタデータ） (2025-06-02T17:42:58Z)
VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文参考訳（メタデータ） (2025-05-02T08:31:43Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文参考訳（メタデータ） (2023-06-29T17:08:16Z)
Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文参考訳（メタデータ） (2023-05-25T16:30:07Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
Bi-directional Training for Composed Image Retrieval via Text Prompt Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。 2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文参考訳（メタデータ） (2023-03-29T11:37:41Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-01-30T17:21:30Z)
InDiReCT: Language-Guided Zero-Shot Deep Metric Learning for Images [4.544151613454639]
アプリケーションによって、画像検索システムの利用者は異なる概念を持ち、類似性も変化していると論じる。本稿では,Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を新しいDML設定として提示する。 InDiReCTは、トレーニングにいくつかのテキストプロンプトのみを使用する画像上のLanZ-DMLのモデルである。
論文参考訳（メタデータ） (2022-11-23T08:09:50Z)
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文参考訳（メタデータ） (2020-02-23T23:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。