論文の概要: Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2506.19708v1
- Date: Tue, 24 Jun 2025 15:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.698604
- Title: Uncovering Conceptual Blindspots in Generative Image Models Using Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダを用いた生成画像モデルにおける概念的ブラインドスポットの発見
- Authors: Matyas Bohacek, Thomas Fel, Maneesh Agrawala, Ekdeep Singh Lubana,
- Abstract要約: 生成画像モデルにおいて,概念的盲点を識別するための体系的アプローチを提案する。
我々のアプローチは、特定の抑制された盲点と誇張された盲点を明らかにする。
全体として,生成モデルにおける概念的盲点を体系的に同定するための理論的基盤的枠組みを提案する。
- 参考スコア(独自算出の注目度): 28.04396148117613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive performance, generative image models trained on large-scale datasets frequently fail to produce images with seemingly simple concepts -- e.g., human hands or objects appearing in groups of four -- that are reasonably expected to appear in the training data. These failure modes have largely been documented anecdotally, leaving open the question of whether they reflect idiosyncratic anomalies or more structural limitations of these models. To address this, we introduce a systematic approach for identifying and characterizing "conceptual blindspots" -- concepts present in the training data but absent or misrepresented in a model's generations. Our method leverages sparse autoencoders (SAEs) to extract interpretable concept embeddings, enabling a quantitative comparison of concept prevalence between real and generated images. We train an archetypal SAE (RA-SAE) on DINOv2 features with 32,000 concepts -- the largest such SAE to date -- enabling fine-grained analysis of conceptual disparities. Applied to four popular generative models (Stable Diffusion 1.5/2.1, PixArt, and Kandinsky), our approach reveals specific suppressed blindspots (e.g., bird feeders, DVD discs, and whitespaces on documents) and exaggerated blindspots (e.g., wood background texture and palm trees). At the individual datapoint level, we further isolate memorization artifacts -- instances where models reproduce highly specific visual templates seen during training. Overall, we propose a theoretically grounded framework for systematically identifying conceptual blindspots in generative models by assessing their conceptual fidelity with respect to the underlying data-generating process.
- Abstract(参考訳): 優れたパフォーマンスにもかかわらず、大規模なデータセットでトレーニングされた生成イメージモデルは、一見単純な概念である4つのグループに現れる人間の手やオブジェクトなど、トレーニングデータに合理的に現れるイメージを生成できないことが多い。
これらの障害モードは典型的には文書化されており、慣用的な異常やこれらのモデルのより構造的な制限を反映しているかどうかという疑問が残されている。
これを解決するために、トレーニングデータに存在する概念を識別し、特徴付けるための体系的なアプローチを導入し、モデルの世代で欠落または誤表現する。
提案手法は,スパースオートエンコーダ(SAE)を利用して,解釈可能な概念埋め込みを抽出し,実画像と生成画像のコンセプト有病率の定量的比較を可能にする。
我々は、DINOv2の特徴(これまでで最大のSAEである32,000のコンセプト)にアーキティパルSAE(RA-SAE)をトレーニングし、概念格差のきめ細かい分析を可能にします。
Stable Diffusion 1.5/2.1, PixArt, およびKandinskyの4つの一般的な生成モデルに適用すると, 本手法は特定の抑制された盲点(例えば, 鳥の餌, DVDディスク, 文書上の空白)と誇張された盲点(例, 木の背景テクスチャ, ヤシの木)を明らかにする。
個々のデータポイントレベルでは、トレーニング中に見られる非常に特殊な視覚的テンプレートをモデルが再現するインスタンスとして、メモリ化アーティファクトをさらに分離します。
本稿では,データ生成過程に関する概念的忠実性を評価することによって,生成モデルにおける概念的盲点を体系的に同定する理論的基盤の枠組みを提案する。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - MACE: Model Agnostic Concept Extractor for Explaining Image
Classification Networks [10.06397994266945]
MACE: Model Agnostic Concept Extractorを提案し、より小さな概念を通じて畳み込みネットワークの動作を説明する。
VGG16やResNet50 CNNアーキテクチャ、Animals With Attributes 2(AWA2)やPlaces365といったデータセットを使って、私たちのフレームワークを検証する。
論文 参考訳(メタデータ) (2020-11-03T04:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。