論文の概要: IA-T2I: Internet-Augmented Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.15779v1
- Date: Wed, 21 May 2025 17:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.803837
- Title: IA-T2I: Internet-Augmented Text-to-Image Generation
- Title(参考訳): IA-T2I:インターネットを利用したテキスト・画像生成
- Authors: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, Kaipeng Zhang,
- Abstract要約: 現在のテキスト・ツー・イメージ(T2I)生成モデルは有望な結果をもたらすが、テキスト・プロンプトに暗示される知識が不確実なシナリオでは失敗する。
本稿では,T2I モデルに参照画像を提供することで,そのような不確実な知識を明確化するための Internet-Augmented Text-to-image Generation (IA-T2I) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.765327654914199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework's performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.
- Abstract(参考訳): 現在のテキスト・ツー・イメージ(T2I)生成モデルは有望な結果をもたらすが、テキスト・プロンプトに暗示される知識が不確実なシナリオでは失敗する。
例えば、2月に公開されたT2Iモデルは、キャラクターのデザインとスタイルがモデルに不確実であるため、4月に公開された映画のポスターを作るのに苦労する。
この問題を解決するために,インターネットに拡張されたテキスト・ツー・イメージ生成(IA-T2I)フレームワークを提案する。
具体的には、与えられたテキストプロンプトに基づいて参照画像が必要かどうかを判定するアクティブ検索モジュール、T2Iモデルを強化するために画像検索エンジンが返却する最も適した画像を見つける階層画像選択モジュール、生成した画像を連続的に評価・洗練し、テキストプロンプトとの忠実な整合性を確保するための自己回帰機構を提供する。
提案するフレームワークの性能を評価するために,Img-Ref-T2Iというデータセットを収集し,テキストプロンプトには3種類の不確実な知識が含まれている。
(2)不明。
(3)曖昧。
また,ヒトの嗜好評価と類似した評価精度を示したGPT-4oの選好評価において,GPT-4oを誘導する複雑なプロンプトを慎重に作成する。
実験の結果, GPT-4oを約30%上回り, 本フレームワークの有効性が示された。
関連論文リスト
- Instruction-augmented Multimodal Alignment for Image-Text and Element Matching [8.470864568439968]
本稿では、画像テキストと要素マッチング(iMatch)のためのインストラクション強化マルチモーダルアライメントと呼ばれる改善された評価手法を提案する。
iMatchは、微調整された多モーダルな言語モデルにより、画像テキストのセマンティックアライメントを評価する。
実験の結果,iMatch法は既存の手法をはるかに上回り,その有効性と実用性を確認した。
論文 参考訳(メタデータ) (2025-04-16T12:21:49Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? [97.0899853256201]
本稿では,実生活におけるコモンセンスと整合した画像を生成するためのテキスト・ツー・イメージ生成モデルの能力を評価するための新しいタスクとベンチマークを提案する。
我々は、T2Iモデルが、例えば「電球は無光である」と「電球は無光である」というようなイメージを生成できるかどうかを評価する。
さまざまな最先端(ソータ)のT2Iモデルをベンチマークした結果、画像合成と実写写真の間にはまだ大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2024-06-11T17:59:48Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。