Fugu-MT 論文翻訳(概要): Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training

論文の概要: Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training

arxiv url: http://arxiv.org/abs/2312.16204v3
Date: Wed, 09 Oct 2024 11:39:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 23:08:58.043975
Title: Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training
Title（参考訳）: 誤りから学ぶ:テキストから画像への拡散モデルトレーニングのための反復的プロンプトリラベル
Authors: Xinyan Chen, Jiaxin Ge, Tianjun Zhang, Jiaming Liu, Shanghang Zhang,
Abstract要約: Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
参考スコア（独自算出の注目度）: 33.51524424536508
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown impressive performance in many domains. However, the model's capability to follow natural language instructions (e.g., spatial relationships between objects, generating complex scenes) is still unsatisfactory. In this work, we propose Iterative Prompt Relabeling (IPR), a novel algorithm that aligns images to text through iterative image sampling and prompt relabeling with feedback. IPR first samples a batch of images conditioned on the text, then relabels the text prompts of unmatched text-image pairs with classifier feedback. We conduct thorough experiments on SDv2 and SDXL, testing their capability to follow instructions on spatial relations. With IPR, we improved up to 15.22% (absolute improvement) on the challenging spatial relation VISOR benchmark, demonstrating superior performance compared to previous RL methods. Our code is publicly available at https://github.com/cxy000000/IPR-RLDF.
Abstract（参考訳）: 拡散モデルは多くの領域で顕著な性能を示している。しかし、モデルが自然言語の指示に従う能力(例えば、オブジェクト間の空間的関係、複雑なシーンを生成するなど)はまだ不十分である。そこで本研究では,反復的画像サンプリングによる画像のテキストへのアライメントと,フィードバックによるリテラブルの促進を行う新しいアルゴリズムであるIterative Prompt Relabeling (IPR)を提案する。 IPRはまず、テキストに条件付きイメージのバッチをサンプリングし、未マッチングのテキストイメージペアのテキストプロンプトに分類器のフィードバックをラベル付けする。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。 IPRでは、挑戦的空間関係VISORベンチマークで15.22%(絶対改善)の改善を行い、従来のRL法と比較して優れた性能を示した。私たちのコードはhttps://github.com/cxy000000/IPR-RLDF.comで公開されています。

関連論文リスト

Beyond Pixels: A Training-Free, Text-to-Text Framework for Remote Sensing Image Retrieval [2.2613695007273926]
我々は、画像毎に複数の構造化キャプションを特徴付ける新しいベンチマークであるRemote Sensing Rich Textデータセットを紹介する。本データセットに基づいて,TRSLLaVAと呼ばれる完全トレーニングフリーでテキストのみの検索基準を提案する。提案手法は,VLM生成キャプションのデータベースに対して,リッチテキスト記述をクエリとして活用し,テキスト間マッチング問題としてクロスモーダル検索を再構成する。
論文参考訳（メタデータ） (2025-12-11T12:43:41Z)
Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders [41.08205377881149]
本研究は,セマンティックカテゴリを指定または記述したクエリのテキスト・ツー・イメージ検索について検討する。生成拡散モデルを用いて,テキストクエリを視覚的なクエリに変換する。そして、視覚モデルと画像間の類似性を推定する。
論文参考訳（メタデータ） (2025-08-29T18:24:38Z)
FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-06-05T18:36:33Z)
Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences [28.683767105094393]
本稿では,周期整合性を監視信号として活用する手法を提案する。テキスト・ツー・イメージ・モデルを用いてテキストを画像空間にマッピングし、元の画像と再構成との類似性を計算する。サイクル一貫性スコアを用いて候補をランク付けし、866K比較ペアの選好データセットを構築する。
論文参考訳（メタデータ） (2025-06-02T17:42:58Z)
VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文参考訳（メタデータ） (2025-05-02T08:31:43Z)
Aligning Text to Image in Diffusion Models is Easier Than You Think [47.623236425067326]
ソフトテキストトークンを用いたSoftREPAと呼ばれる軽量なコントラスト微調整方式を導入する。本手法は,テキストと画像表現間の相互情報を明示的に増大させ,意味的一貫性を向上させる。
論文参考訳（メタデータ） (2025-03-11T10:14:22Z)
Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文参考訳（メタデータ） (2023-10-09T07:31:44Z)
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文参考訳（メタデータ） (2023-06-29T17:08:16Z)
Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文参考訳（メタデータ） (2023-05-25T16:30:07Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
Bi-directional Training for Composed Image Retrieval via Text Prompt Learning [46.60334745348141]
合成画像検索は、参照画像と修正テキストからなるマルチモーダルユーザクエリに基づいて、対象画像の検索を行う。本稿では,このような逆クエリを活用し,既存の合成画像検索アーキテクチャに適用可能な双方向トレーニング手法を提案する。 2つの標準データセットに対する実験により,我々の新しい手法はベースラインBLIPモデルよりも性能が向上することが示された。
論文参考訳（メタデータ） (2023-03-29T11:37:41Z)
Language Quantized AutoEncoders: Towards Unsupervised Text-Image Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。 LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文参考訳（メタデータ） (2023-02-02T06:38:44Z)
STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文参考訳（メタデータ） (2023-01-30T17:21:30Z)
InDiReCT: Language-Guided Zero-Shot Deep Metric Learning for Images [4.544151613454639]
アプリケーションによって、画像検索システムの利用者は異なる概念を持ち、類似性も変化していると論じる。本稿では,Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を新しいDML設定として提示する。 InDiReCTは、トレーニングにいくつかのテキストプロンプトのみを使用する画像上のLanZ-DMLのモデルである。
論文参考訳（メタデータ） (2022-11-23T08:09:50Z)
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval [0.0]
視覚と言語表現を同時に学習するための,エンドツーエンドの深層マルチモーダル畳み込み再帰ネットワークを提案する。このモデルは、どのペアがマッチ(正)か、どれがミスマッチ(負)かをヒンジベースの三重項ランキングを用いて学習する。
論文参考訳（メタデータ） (2020-02-23T23:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。