論文の概要: Right Looks, Wrong Reasons: Compositional Fidelity in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2511.10136v1
- Date: Fri, 14 Nov 2025 01:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.711824
- Title: Right Looks, Wrong Reasons: Compositional Fidelity in Text-to-Image Generation
- Title(参考訳): 右図, 間違った理由: テキスト・画像生成における構成的忠実度
- Authors: Mayank Vatsa, Aparna Bharati, Richa Singh,
- Abstract要約: 本研究は,3つの基本的論点,計数,空間的関係の分解について検討する。
この失敗を3つの重要な要因に遡る。まず、トレーニングデータから明らかな否定がほとんどないことを示す。
我々は、既存のアーキテクチャへの漸進的な調整よりも、表現と推論の根本的な進歩が必要であると結論付けている。
- 参考スコア(独自算出の注目度): 34.89831673834612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The architectural blueprint of today's leading text-to-image models contains a fundamental flaw: an inability to handle logical composition. This survey investigates this breakdown across three core primitives-negation, counting, and spatial relations. Our analysis reveals a dramatic performance collapse: models that are accurate on single primitives fail precipitously when these are combined, exposing severe interference. We trace this failure to three key factors. First, training data show a near-total absence of explicit negations. Second, continuous attention architectures are fundamentally unsuitable for discrete logic. Third, evaluation metrics reward visual plausibility over constraint satisfaction. By analyzing recent benchmarks and methods, we show that current solutions and simple scaling cannot bridge this gap. Achieving genuine compositionality, we conclude, will require fundamental advances in representation and reasoning rather than incremental adjustments to existing architectures.
- Abstract(参考訳): 今日の主要なテキスト・ツー・イメージ・モデルのアーキテクチャの青写真には、論理的構成を扱うことができないという根本的な欠陥が含まれている。
本研究は,3つの基本的論点,計数,空間的関係の分解について検討する。
単一プリミティブ上で正確であるモデルは、これらを組み合わせると突然失敗し、深刻な干渉が露呈する。
この失敗は3つの重要な要因に遡る。
まず、トレーニングデータから、明示的な否定がほとんど存在しないことを示す。
第二に、継続的注意アーキテクチャは基本的に離散論理には適さない。
第3に、評価指標は制約満足度に対する視覚的妥当性を報いる。
最近のベンチマークや手法を解析することにより、現在のソリューションと単純なスケーリングがこのギャップを埋めることができないことを示す。
真の構成性を達成するためには、既存のアーキテクチャへの漸進的な調整よりも、表現と推論の根本的な進歩が必要である、と私たちは結論付けています。
関連論文リスト
- Novel Class Discovery for Point Cloud Segmentation via Joint Learning of Causal Representation and Reasoning [58.25418970608328]
ポイントクラウドのための新しいクラスディスカバリ(3D-NCD)に焦点を当てる
このタスクの鍵は、ポイント表現とベースクラスラベルの正確な相関を設定することである。
本稿では,因果表現と推論の融合学習法を提案する。
論文 参考訳(メタデータ) (2025-10-15T08:54:41Z) - Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning [11.952788515297913]
DeFactoは、正確な回答と忠実な推論を共同で実施する、反ファクト的推論フレームワークである。
本研究では,疑問関連証拠を自動的に局所化し,肯定的,反実的,ランダムな変種を構成するパイプラインを開発する。
多様なベンチマークの実験では、DeFactoは回答の正確さと忠実性の推論の両方を大幅に改善している。
論文 参考訳(メタデータ) (2025-09-25T08:58:10Z) - Losing the Plot: How VLM responses degrade on imperfect charts [11.071294641688496]
視覚言語モデル(VLM)は、チャート理解において強力な結果を示すが、既存のベンチマークでは、明確な数字と事実に基づくクエリを仮定している。
我々はChatGPT 4o, Claude Sonnet 4, Gemini 2.5 Proを評価し, 汚損や隠蔽下での急激な性能低下を見出した。
重要なイノベーションは、モデルが同じ声明を確認または否定するよう求められたときに矛盾する、逆の矛盾を早急に起こすことだ。
論文 参考訳(メタデータ) (2025-09-22T21:12:20Z) - A Graph-based Verification Framework for Fact-Checking [25.875698681028794]
ファクトチェックのためのグラフベースのフレームワークGraphFCを提案する。
この中核的な考え方に基づいて,ファクトチェックのためのグラフベースのフレームワークであるGraphFCを提案する。
論文 参考訳(メタデータ) (2025-03-10T13:02:29Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。