論文の概要: MetaLogic: Robustness Evaluation of Text-to-Image Models via Logically Equivalent Prompts
- arxiv url: http://arxiv.org/abs/2510.00796v1
- Date: Wed, 01 Oct 2025 11:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.537115
- Title: MetaLogic: Robustness Evaluation of Text-to-Image Models via Logically Equivalent Prompts
- Title(参考訳): メタ論理:論理等価プロンプトによるテキスト・画像モデルのロバスト性評価
- Authors: Yifan Shen, Yangyang Shu, Hye-young Paik, Yulei Sui,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは、入力が言語的変化を誘発するときに意味的一貫性を維持するのに苦労する。
提案するMetaLogicは,T2Iミスアライメントを検出する新しい評価フレームワークである。
- 参考スコア(独自算出の注目度): 13.010772460971374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image (T2I) models, especially diffusion-based architectures, have significantly improved the visual quality of generated images. However, these models continue to struggle with a critical limitation: maintaining semantic consistency when input prompts undergo minor linguistic variations. Despite being logically equivalent, such prompt pairs often yield misaligned or semantically inconsistent images, exposing a lack of robustness in reasoning and generalisation. To address this, we propose MetaLogic, a novel evaluation framework that detects T2I misalignment without relying on ground truth images. MetaLogic leverages metamorphic testing, generating image pairs from prompts that differ grammatically but are semantically identical. By directly comparing these image pairs, the framework identifies inconsistencies that signal failures in preserving the intended meaning, effectively diagnosing robustness issues in the model's logic understanding. Unlike existing evaluation methods that compare a generated image to a single prompt, MetaLogic evaluates semantic equivalence between paired images, offering a scalable, ground-truth-free approach to identifying alignment failures. It categorises these alignment errors (e.g., entity omission, duplication, positional misalignment) and surfaces counterexamples that can be used for model debugging and refinement. We evaluate MetaLogic across multiple state-of-the-art T2I models and reveal consistent robustness failures across a range of logical constructs. We find that even the SOTA text-to-image models like Flux.dev and DALLE-3 demonstrate a 59 percent and 71 percent misalignment rate, respectively. Our results show that MetaLogic is not only efficient and scalable, but also effective in uncovering fine-grained logical inconsistencies that are overlooked by existing evaluation metrics.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの最近の進歩、特に拡散型アーキテクチャは、生成した画像の視覚的品質を大幅に向上させた。
しかしながら、これらのモデルは、入力プロンプトが小さな言語的変化を受けるときの意味的一貫性を維持するという、重要な制限に悩まされ続けている。
論理的に等価であるにもかかわらず、そのようなプロンプトペアはしばしば不整合あるいは意味的に矛盾したイメージをもたらし、推論や一般化における堅牢性の欠如を露呈する。
そこで本研究では,T2Iの誤認識を検出する新しい評価フレームワークであるMetaLogicを提案する。
MetaLogicはメタモルフィックテストを活用し、文法的に異なるが意味的に同一であるプロンプトから画像ペアを生成する。
これらの画像ペアを直接比較することにより、このフレームワークは意図した意味を保存する際の失敗を信号する不整合を識別し、モデルの論理的理解における堅牢性の問題を効果的に診断する。
生成した画像を単一のプロンプトと比較する既存の評価方法とは異なり、MetaLogicはペア画像間の意味的等価性を評価し、アライメント障害を特定するためのスケーラブルで地道なアプローチを提供する。
これらのアライメントエラー(例えば、エンティティの省略、重複、位置のずれ)と、モデルデバッグと改善に使用できる表面の反例を分類する。
複数の最先端T2Iモデルにまたがるメタロジックを評価し,論理構造にまたがる一貫したロバスト性障害を明らかにする。
Flux.dev や DALLE-3 のような SOTA のテキスト・ツー・イメージモデルでさえ,それぞれ 59% と 71% の誤認識率を示していることがわかった。
以上の結果から,MetaLogicは効率的かつスケーラブルであるだけでなく,既存の評価指標から見過ごされる詳細な論理的不整合を明らかにする上でも有効であることが示唆された。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Asymmetric Idiosyncrasies in Multimodal Models [22.359102255231004]
キャプションモデルにおけるイディオシンプレッションと、テキスト・ツー・イメージモデルに対する下流の影響について検討する。
以上の結果から,テキスト分類の精度は非常に高い(99.70%)。
本フレームワークは,キャプションモデルのスタイリスティックな慣用性と,テキスト・ツー・イメージシステムの迅速な追従能力の両方を定量化する新しい手法を提供する。
論文 参考訳(メタデータ) (2026-02-26T08:16:47Z) - A Theorem-Proving-Based Evaluation of Neural Semantic Parsing [4.422349568747053]
我々は、グラフマッチングと自動定理証明とのペアリングによる評価を再評価する。
提案手法は,グラフマッチング,一階述語論理定理証明器によるソースとターゲットの論理式間の双方向の包含,および整形性を用いて出力を評価する。
論文 参考訳(メタデータ) (2025-10-13T10:09:38Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - Semantic-Syntactic Discrepancy in Images (SSDI): Learning Meaning and Order of Features from Natural Images [7.148054923510877]
画像意味論」と「画像構文」からなる「画像文法」の概念を提案する。
自然画像のみから視覚要素や環境の画像文法を学習するための半教師付き2段階手法を提案する。
提案手法の有効性は,CelebA および SUN-RGBD データセットから生成された破損に対して,70% から90% までの検出率を達成することによって実証される。
論文 参考訳(メタデータ) (2024-01-31T00:16:02Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。