論文の概要: Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback
- arxiv url: http://arxiv.org/abs/2606.06113v2
- Date: Thu, 11 Jun 2026 12:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 13:39:59.477241
- Title: Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback
- Title(参考訳): テキストから画像へのフィードバックのための構造的欠陥グラウンドの場所、理由、重要性
- Authors: Huaisong Zhang, Hao Yu, Yuxuan Zhang, Jiahe Wang, Xinrui Chen, Haoxiang Cao, Feng Lu, Wendong Zhang, Changqian Yu, Chun Yuan,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは依然として局所的で微妙で構造的に複雑な失敗を示す。
構造的欠陥接地は, 各欠陥を位置, タイプ, 理由, 重要性としてモデル化し, 構造的集合予測としてT2Iの診断を行う。
我々の検出器は、構造欠陥接地におけるプロプライエタリなVLMよりも優れています。
- 参考スコア(独自算出の注目度): 51.08692072066352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite generating increasingly photorealistic images, text-to-image (T2I) models still exhibit localized, subtle, and structurally complex failures. Diagnosing these failures requires instance-level feedback that answers where a defect occurs, what type it is, why it is defective, and its importance to overall image quality. While recent dense-feedback methods move beyond scalar supervision, their heatmap-centric representations still formulate diagnosis as pixel-field regression, making it difficult to localize variable-cardinality defects and bind semantic reasons to individual failures. To address this representation bottleneck, we propose Structured Defect Grounding (SDG), which casts T2I diagnosis as structured set prediction by modeling each defect as a (location, type, reason, importance) tuple. To make this formulation trainable and measurable, we introduce SDG-30K, a 30K-image dataset with box-grounded annotations across four modern T2I generators, together with a dedicated evaluation protocol, SDG-Eval. Building on this structured representation, we further present a diagnosis-to-alignment framework in which a Vision-Language Model (VLM) serves as the SDG detector, and BoxFlow-GRPO converts predicted defect sets into box-derived, importance-weighted spatial rewards for diffusion model alignment. Extensive experiments show that our SDG detector outperforms leading proprietary VLMs on structured defect grounding, while SDG-guided rewards consistently improve T2I alignment and support localized image refinement. These results establish SDG as a unified, instance-level interface for diagnosing, evaluating, and enhancing modern generative models.
- Abstract(参考訳): ますますフォトリアリスティックな画像を生成するが、テキスト・トゥ・イメージ(T2I)モデルは依然として局所的で微妙で構造的に複雑な失敗を示す。
これらの障害を診断するには、欠陥の発生場所、その型、なぜ欠陥があるのか、そして画像の全体的な品質に対する重要性に答える、インスタンスレベルのフィードバックが必要である。
最近の高密度フィードバック法はスカラー・インスペクションを超えているが、熱マップ中心の表現は依然としてピクセルフィールドの回帰として診断を定式化しており、可変心電図の欠陥を局所化し、意味的理由を個々の障害に結びつけることは困難である。
この表現ボトルネックに対処するために,T2I診断を構造的集合予測として,各欠陥を(位置,型,理由,重要性)タプルとしてモデル化する構造的欠陥接地法(SDG)を提案する。
SDG-30Kは4つの現代的なT2Iジェネレータにまたがるボックスグラウンドアノテーションを備えた30Kイメージデータセットであり、専用の評価プロトコルであるSDG-Evalも導入する。
この構造的表現に基づいて、視覚言語モデル(VLM)がSDG検出器として機能し、BoxFlow-GRPOは予測された欠陥セットを、拡散モデルアライメントのためのボックス由来の重要重み付き空間報酬に変換する。
我々のSDG検出器は、構造欠陥接地においてプロプライエタリなVLMよりも優れており、SDG誘導報酬は一貫してT2Iアライメントを改善し、ローカライズドイメージリファインメントをサポートする。
これらの結果は、SDGを近代的な生成モデルの診断、評価、拡張のための統合されたインスタンスレベルのインターフェースとして確立する。
関連論文リスト
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - Agentic Retoucher for Text-To-Image Generation [48.80766311858762]
Agentic Retoucherは階層的な意思決定駆動のフレームワークで、ポストジェネレーションの修正を人間のような知覚・推論・アクションループとして再構成する。
この設計は、知覚的証拠、言語的推論、制御可能な修正を統一された自己修正的決定プロセスに統合する。
実験により、エージェント・リタッチは知覚品質、歪みの局在化、人間の嗜好調整において、最先端の手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-05T12:06:43Z) - Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation [12.030059666003972]
分散シフト下でのゼロショット多重型およびバイナリ異常検出とセグメンテーションのプログレッシブチューニングに基づく,Defect-aware Prompt Optimizationのための新しいアプローチであるDAPOを紹介する。
本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
論文 参考訳(メタデータ) (2025-12-10T09:19:17Z) - FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges [85.24983823102262]
本稿では,テキスト・トゥ・イメージ(T2I)モデルと視覚言語モデル(VLM)を評価するための構造化手法を提案する。
我々は,挑戦的プロンプトで条件付きT2Iモデルにより生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証した。
以上の結果から,現在の測定値ではこれらの誤差を捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-12-01T19:46:03Z) - Reference-based Defect Detection Network [57.89399576743665]
最初の問題はテクスチャシフトであり、これはトレーニングされた欠陥検出モデルが目に見えないテクスチャの影響を受けやすいことを意味する。
第2の問題は部分的な視覚的混乱であり、部分的な欠陥ボックスが完全なボックスと視覚的に類似していることを示している。
本稿では,これら2つの問題に対処する参照型欠陥検出ネットワーク(RDDN)を提案する。
論文 参考訳(メタデータ) (2021-08-10T05:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。