論文の概要: FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges
- arxiv url: http://arxiv.org/abs/2512.02161v1
- Date: Mon, 01 Dec 2025 19:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.584502
- Title: FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges
- Title(参考訳): FineGRAIN: 視覚言語モデルによるテキスト・画像モデルの故障モードの評価
- Authors: Kevin David Hayes, Micah Goldblum, Vikash Sehwag, Gowthami Somepalli, Ashwinee Panda, Tom Goldstein,
- Abstract要約: 本稿では,テキスト・トゥ・イメージ(T2I)モデルと視覚言語モデル(VLM)を評価するための構造化手法を提案する。
我々は,挑戦的プロンプトで条件付きT2Iモデルにより生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証した。
以上の結果から,現在の測定値ではこれらの誤差を捉えるには不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 85.24983823102262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models are capable of generating visually impressive images, yet they often fail to accurately capture specific attributes in user prompts, such as the correct number of objects with the specified colors. The diversity of such errors underscores the need for a hierarchical evaluation framework that can compare prompt adherence abilities of different image generation models. Simultaneously, benchmarks of vision language models (VLMs) have not kept pace with the complexity of scenes that VLMs are used to annotate. In this work, we propose a structured methodology for jointly evaluating T2I models and VLMs by testing whether VLMs can identify 27 specific failure modes in the images generated by T2I models conditioned on challenging prompts. Our second contribution is a dataset of prompts and images generated by 5 T2I models (Flux, SD3-Medium, SD3-Large, SD3.5-Medium, SD3.5-Large) and the corresponding annotations from VLMs (Molmo, InternVL3, Pixtral) annotated by an LLM (Llama3) to test whether VLMs correctly identify the failure mode in a generated image. By analyzing failure modes on a curated set of prompts, we reveal systematic errors in attribute fidelity and object representation. Our findings suggest that current metrics are insufficient to capture these nuanced errors, highlighting the importance of targeted benchmarks for advancing generative model reliability and interpretability.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは視覚的に印象的な画像を生成することができるが、特定の色を持つオブジェクトの正確な数など、ユーザープロンプトの特定の属性を正確に捉えることができないことが多い。
このようなエラーの多様性は、異なる画像生成モデルの即時付着能力を比較できる階層的評価フレームワークの必要性を浮き彫りにする。
同時に、視覚言語モデル(VLM)のベンチマークは、VLMがアノテートするのに使用されるシーンの複雑さとペースを保っていない。
本研究では,挑戦的プロンプトで条件付きT2Iモデルによって生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証し,T2IモデルとVLMを共同評価するための構造化手法を提案する。
第2のコントリビューションは、5つのT2Iモデル(Flux, SD3-Medium, SD3-Large, SD3.5-Medium, SD3.5-Large)と、LCM(Llama3)で注釈付けされたVLM(Molmo, InternVL3, Pixtral)から生成されたアノテーション(Molmo, InternVL3, Pixtral)によって生成されたプロンプトとイメージのデータセットで、VLMが生成された画像の障害モードを正しく識別するかどうかをテストする。
計算した一連のプロンプトの故障モードを解析することにより,属性の忠実度とオブジェクト表現の体系的誤りを明らかにする。
以上の結果から,これらの誤差を捉えるには現在の指標が不十分であることが示唆され,生成モデルの信頼性と解釈可能性を向上させるための目標ベンチマークの重要性が浮き彫りにされている。
関連論文リスト
- PoSh: Using Scene Graphs To Guide LLMs-as-a-Judge For Detailed Image Descriptions [55.95282725491425]
PoShは、LLMs-as-a-Judgeをガイドするために、シーングラフを構造化ルーリックとして使用する詳細な画像記述のメトリクスである。
PoShはレプリカ可能で、解釈可能で、既存のメトリクスよりも人間のレーダのプロキシが優れている。
我々は,オープンウェイトな選択肢よりも,DOCENTにおける人間の判断とPoShの相関が強いことを示す。
論文 参考訳(メタデータ) (2025-10-21T20:30:20Z) - Test-time Prompt Refinement for Text-to-Image Models [14.505841027491114]
我々は、TIRと呼ばれる基礎となるT2Iモデルの追加トレーニングを必要としないテスト時間プロンプトリファインメントフレームワークを導入する。
提案手法では,各生成ステップに続いて,事前訓練されたマルチモーダル大言語モデル(MLLM)が出力画像とユーザのプロンプトを解析する。
このクローズドループ戦略は、ブラックボックスT2Iモデルとのプラグアンドプレイ統合を維持しながら、複数のベンチマークデータセット間のアライメントと視覚的コヒーレンスを改善することを実証する。
論文 参考訳(メタデータ) (2025-07-22T20:30:13Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - Vision-Language In-Context Learning Driven Few-Shot Visual Inspection Model [0.5497663232622965]
非欠陥品や欠陥品の少数ショット画像を用いた視覚言語モデル(VLM)を用いた一般的な視覚検査モデルを提案する。
新たな製品に対して,本手法では,非欠陥画像や欠陥画像の例を用いて,モデルが検査を行うことができるIn-Context Learningを採用している。
論文 参考訳(メタデータ) (2025-02-13T08:11:10Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。