論文の概要: Align Beyond Prompts: Evaluating World Knowledge Alignment in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2505.18730v1
- Date: Sat, 24 May 2025 14:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.624213
- Title: Align Beyond Prompts: Evaluating World Knowledge Alignment in Text-to-Image Generation
- Title(参考訳): Aign Beyond Prompts: テキスト・ツー・イメージ・ジェネレーションにおける世界知識アライメントの評価
- Authors: Wenchao Zhang, Jiahe Tian, Runze He, Jizhong Han, Jiao Dai, Miaomiao Feng, Wei Mi, Xiaodan Zhang,
- Abstract要約: 本稿では、生成した画像のアライメントと、プロンプトを超える現実世界の知識を計測するベンチマークであるAlign Beyond Prompts (ABP)を紹介する。
ABPは2000以上の巧妙なプロンプトで構成され、6つの異なるシナリオで現実世界の知識をカバーしている。
ABPScoreは、既存のMultimodal Large Language Models(MLLM)を使用して、生成された画像とプロンプト以外の世界の知識との整合性を評価するメトリクスである。
- 参考スコア(独自算出の注目度): 10.583920883457635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) generation models have advanced significantly, enabling the creation of high-fidelity images from textual prompts. However, existing evaluation benchmarks primarily focus on the explicit alignment between generated images and prompts, neglecting the alignment with real-world knowledge beyond prompts. To address this gap, we introduce Align Beyond Prompts (ABP), a comprehensive benchmark designed to measure the alignment of generated images with real-world knowledge that extends beyond the explicit user prompts. ABP comprises over 2,000 meticulously crafted prompts, covering real-world knowledge across six distinct scenarios. We further introduce ABPScore, a metric that utilizes existing Multimodal Large Language Models (MLLMs) to assess the alignment between generated images and world knowledge beyond prompts, which demonstrates strong correlations with human judgments. Through a comprehensive evaluation of 8 popular T2I models using ABP, we find that even state-of-the-art models, such as GPT-4o, face limitations in integrating simple real-world knowledge into generated images. To mitigate this issue, we introduce a training-free strategy within ABP, named Inference-Time Knowledge Injection (ITKI). By applying this strategy to optimize 200 challenging samples, we achieved an improvement of approximately 43% in ABPScore. The dataset and code are available in https://github.com/smile365317/ABP.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)生成モデルが大きく進歩し,テキスト・プロンプトから高忠実度画像の作成が可能になった。
しかし、既存の評価ベンチマークは主に生成された画像とプロンプトの明確なアライメントに焦点を当てており、プロンプト以外の現実世界の知識とのアライメントを無視している。
このギャップに対処するために、私たちはAlign Beyond Prompts (ABP) という、明示的なユーザプロンプトを超えて広がる現実世界の知識と生成された画像のアライメントを測定するために設計された包括的なベンチマークを紹介します。
ABPは2000以上の巧妙なプロンプトで構成され、6つの異なるシナリオで現実世界の知識をカバーしている。
さらに、既存のマルチモーダル大言語モデル(MLLM)を用いて、プロンプトを超えて生成された画像と世界知識の整合性を評価する指標であるABPScoreを導入し、人間の判断と強い相関関係を示す。
ABPを用いた8つのT2Iモデルの総合評価により、GPT-4oのような最先端モデルでさえ、単純な実世界の知識を生成画像に統合する際の限界に直面していることがわかった。
この問題を軽減するために,推論時知識注入 (ITKI) という,APP内でのトレーニング不要戦略を導入する。
この戦略を適用して200の挑戦的なサンプルを最適化し、ABPScoreで約43%の改善を実現した。
データセットとコードはhttps://github.com/smile365317/ABPで公開されている。
関連論文リスト
- IA-T2I: Internet-Augmented Text-to-Image Generation [13.765327654914199]
現在のテキスト・ツー・イメージ(T2I)生成モデルは有望な結果をもたらすが、テキスト・プロンプトに暗示される知識が不確実なシナリオでは失敗する。
本稿では,T2I モデルに参照画像を提供することで,そのような不確実な知識を明確化するための Internet-Augmented Text-to-image Generation (IA-T2I) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:31:49Z) - WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation [38.196609962452655]
textbfWorldGenBenchは、T2Iモデルの世界の知識基盤と暗黙の推論能力を評価するために設計されたベンチマークである。
提案するtextbfKnowledge Checklist Scoreは,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化メトリクスである。
本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
論文 参考訳(メタデータ) (2025-05-02T17:59:06Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - WISE: A World Knowledge-Informed Semantic Evaluation for Text-to-Image Generation [26.61175134316007]
テキスト・ツー・フォームド・モデル(T2I)は高品質な芸術作品や視覚コンテンツを生成することができる。
我々は、$textbfWorld Knowledge incorporation$bfIntext $textbfSemantic $textbfE$valuationのために特別に設計された最初のベンチマークである$textbfWISEを提案する。
論文 参考訳(メタデータ) (2025-03-10T12:47:53Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - Interleaved Scene Graphs for Interleaved Text-and-Image Generation Assessment [53.45813302866466]
我々は、インターリーブされたテキスト・画像生成のための総合的な評価フレームワークISGを提案する。
ISGは、全体性、構造性、ブロックレベル、画像固有性の4つのレベルで反応を評価する。
ISGと組み合わせて、ISG-Benchというベンチマークを導入し、8つのカテゴリと21のサブカテゴリにわたる1,150のサンプルを網羅した。
論文 参考訳(メタデータ) (2024-11-26T07:55:57Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。