Fugu-MT 論文翻訳(概要): Improving Text-to-Image Consistency via Automatic Prompt Optimization

論文の概要: Improving Text-to-Image Consistency via Automatic Prompt Optimization

arxiv url: http://arxiv.org/abs/2403.17804v1
Date: Tue, 26 Mar 2024 15:42:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 14:47:26.844730
Title: Improving Text-to-Image Consistency via Automatic Prompt Optimization
Title（参考訳）: 自動プロンプト最適化によるテキスト対画像整合性の改善
Authors: Oscar Mañas, Pietro Astolfi, Melissa Hall, Candace Ross, Jack Urbanek, Adina Williams, Aishwarya Agrawal, Adriana Romero-Soriano, Michal Drozdzal,
Abstract要約: 我々は,T2Iモデルの迅速な画像整合性を改善するため,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。
参考スコア（独自算出の注目度）: 26.2587505265501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images that are consistent with the input prompt, oftentimes failing to capture object quantities, relations and attributes properly. Existing solutions to improve prompt-image consistency suffer from the following challenges: (1) they oftentimes require model fine-tuning, (2) they only focus on nearby prompt samples, and (3) they are affected by unfavorable trade-offs among image quality, representation diversity, and prompt-image consistency. In this paper, we address these challenges and introduce a T2I optimization-by-prompting framework, OPT2I, which leverages a large language model (LLM) to improve prompt-image consistency in T2I models. Our framework starts from a user prompt and iteratively generates revised prompts with the goal of maximizing a consistency score. Our extensive validation on two datasets, MSCOCO and PartiPrompts, shows that OPT2I can boost the initial consistency score by up to 24.9% in terms of DSG score while preserving the FID and increasing the recall between generated and real data. Our work paves the way toward building more reliable and robust T2I systems by harnessing the power of LLMs.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成モデルにおける印象的な進歩は、美的に魅力的なフォトリアリスティックな画像を生成することができるハイパフォーマンスなモデルの多面体を生み出している。進歩にもかかわらず、これらのモデルは入力プロンプトと整合した画像を生成するのに苦慮し、しばしばオブジェクトの量、関係、属性を適切に捉えない。即時画像整合性を改善するための既存のソリューションは,(1)モデル微調整が必要な場合が多い,(2)近傍のプロンプトサンプルにのみ焦点をあてる場合,(3)画像品質,表現多様性,即時画像整合性といった不都合なトレードオフの影響を受けやすい,といった課題に悩まされる。本稿では,これらの課題に対処し,大規模言語モデル(LLM)を活用してT2Iモデルの迅速な画像整合性を改善する,T2I最適化・プロンプトフレームワークであるOPT2Iを導入する。当社のフレームワークは,ユーザのプロンプトから始まり,一貫性スコアの最大化を目標として,更新プロンプトを反復的に生成する。 MSCOCOとPartiPromptsの2つのデータセットに対する広範な検証は、OPT2IがFIDを保存し、生成データと実データの間のリコールを増加させながら、DSGスコアを最大24.9%向上させることができることを示している。我々の研究は、LLMの力を利用して、より信頼性が高く堅牢なT2Iシステムを構築するための道を開いた。

関連論文リスト

LumiGen: An LVLM-Enhanced Iterative Framework for Fine-Grained Text-to-Image Generation [1.124958340749622]
視覚言語モデル (LVLM) は、モーダルな理解と指示の追従において強力な能力を示した。 LumiGenは、T2Iモデルの性能を高めるために設計された新しいLVLM拡張反復フレームワークである。 LumiGenは平均スコア3.08で、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-08-05T20:53:43Z)
Test-time Prompt Refinement for Text-to-Image Models [14.505841027491114]
我々は、TIRと呼ばれる基礎となるT2Iモデルの追加トレーニングを必要としないテスト時間プロンプトリファインメントフレームワークを導入する。提案手法では,各生成ステップに続いて,事前訓練されたマルチモーダル大言語モデル(MLLM)が出力画像とユーザのプロンプトを解析する。このクローズドループ戦略は、ブラックボックスT2Iモデルとのプラグアンドプレイ統合を維持しながら、複数のベンチマークデータセット間のアライメントと視覚的コヒーレンスを改善することを実証する。
論文参考訳（メタデータ） (2025-07-22T20:30:13Z)
PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [17.12906933388337]
悪意のあるアクターは、不正なコンテンツを生成するためにT2I拡散モデルを微調整することができる。本稿では,学習オートマトン(PromptLA)に基づく新しいプロンプト選択アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-20T07:24:32Z)
Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG [6.701537544179892]
本稿では,グラフベースのRAGを組み込むことにより,テキスト・ツー・イメージ・モデルの能力を高める新しい手法を提案する。本システムは知識グラフから詳細な文字情報と関係データを動的に取得し,視覚的・文脈的にリッチな画像の生成を可能にする。
論文参考訳（メタデータ） (2024-12-12T18:59:41Z)
GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文参考訳（メタデータ） (2024-12-08T22:29:56Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
TIPO: Text to Image with Text Presampling for Prompt Optimization [16.001151202788304]
TIPOは、言語モデル(LM)によるテキスト・ツー・イメージ(T2I)生成を強化するために設計された革新的なフレームワークである。 LLM(Large Language Models)や強化学習(RL)に依存する従来のアプローチとは異なり、TIPOはトレーニングされたプロンプトデータセットの配布によって、ユーザの入力プロンプトを調整する。
論文参考訳（メタデータ） (2024-11-12T19:09:45Z)
FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。 FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文参考訳（メタデータ） (2024-08-21T15:30:35Z)
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文参考訳（メタデータ） (2024-06-24T06:12:16Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。 SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文参考訳（メタデータ） (2024-03-11T17:35:33Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)
TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。 TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2020-05-27T06:40:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。