論文の概要: CASL: Concept-Aligned Sparse Latents for Interpreting Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.15441v1
- Date: Wed, 21 Jan 2026 20:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.408966
- Title: CASL: Concept-Aligned Sparse Latents for Interpreting Diffusion Models
- Title(参考訳): CASL:拡散モデル解釈のための概念対応スパース潜水器
- Authors: Zhenghao He, Guangzhi Xiong, Boyang Wang, Sanchit Sinha, Aidong Zhang,
- Abstract要約: 拡散モデルの内部的な活性化は、リッチな意味情報を符号化するが、そのような表現を解釈することは依然として困難である。
拡散モデルのスパース潜在次元を意味論的概念と整合させる教師付きフレームワークであるCASL(Concept-Aligned Sparse Latents)を紹介する。
編集方法と異なり、CASL-Steerは因果プローブとしてのみ使用され、概念に整合した潜伏者が生成コンテンツにどのように影響するかを明らかにする。
- 参考スコア(独自算出の注目度): 45.90361318326864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal activations of diffusion models encode rich semantic information, but interpreting such representations remains challenging. While Sparse Autoencoders (SAEs) have shown promise in disentangling latent representations, existing SAE-based methods for diffusion model understanding rely on unsupervised approaches that fail to align sparse features with human-understandable concepts. This limits their ability to provide reliable semantic control over generated images. We introduce CASL (Concept-Aligned Sparse Latents), a supervised framework that aligns sparse latent dimensions of diffusion models with semantic concepts. CASL first trains an SAE on frozen U-Net activations to obtain disentangled latent representations, and then learns a lightweight linear mapping that associates each concept with a small set of relevant latent dimensions. To validate the semantic meaning of these aligned directions, we propose CASL-Steer, a controlled latent intervention that shifts activations along the learned concept axis. Unlike editing methods, CASL-Steer is used solely as a causal probe to reveal how concept-aligned latents influence generated content. We further introduce the Editing Precision Ratio (EPR), a metric that jointly measures concept specificity and the preservation of unrelated attributes. Experiments show that our method achieves superior editing precision and interpretability compared to existing approaches. To the best of our knowledge, this is the first work to achieve supervised alignment between latent representations and semantic concepts in diffusion models.
- Abstract(参考訳): 拡散モデルの内部的な活性化は、リッチな意味情報を符号化するが、そのような表現を解釈することは依然として困難である。
スパースオートエンコーダ (SAE) は遅延表現の無関係性を示す一方で、既存のSAEベースの拡散モデル理解法はスパース機能と人間の理解可能な概念の整合に失敗する教師なしアプローチに依存している。
これにより、生成された画像に対して信頼性の高いセマンティックコントロールを提供する能力が制限される。
拡散モデルのスパース潜在次元を意味論的概念と整合させる教師付きフレームワークであるCASL(Concept-Aligned Sparse Latents)を紹介する。
CASLはまず、凍結したU-Netアクティベーション上でSAEを訓練し、非絡み合った潜在表現を求め、その後、各概念を関連する潜在次元の小さなセットに関連付ける軽量な線形写像を学習する。
そこで本研究では,学習した概念軸に沿ってアクティベーションをシフトさせる制御された潜在介入であるCASL-Steerを提案する。
編集方法と異なり、CASL-Steerは因果プローブとしてのみ使用され、概念に整合した潜伏者が生成コンテンツにどのように影響するかを明らかにする。
編集精度比(EPR:Editing Precision Ratio)は,概念の特異性と無関係な属性の保存を共同で測定する指標である。
実験の結果,既存の手法と比較して編集精度と解釈性に優れることがわかった。
我々の知る限りでは、拡散モデルにおける潜在表現と意味概念の教師付きアライメントを達成するための最初の試みである。
関連論文リスト
- Towards more holistic interpretability: A lightweight disentangled Concept Bottleneck Model [5.700536552863068]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間表現として予測することにより、解釈可能性を高める。
本稿では,視覚的特徴を意味論的に意味のある構成要素に自動的に分類する軽量なDECBMを提案する。
3つの多様なデータセットの実験により、LCDBMはより高い概念とクラス精度を達成し、解釈可能性と分類性能の両方において従来のCBMよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2025-10-17T15:59:30Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - Concept-SAE: Active Causal Probing of Visual Model Behavior [10.346577706023139]
Concept-SAEは、概念トークンを意味的に基礎づけるフレームワークである。
まず、我々の二重スーパービジョンアプローチが、著しく忠実で空間的に局在したトークンを生み出すことを定量的に示す。
この検証された忠実さは,(1)内部概念と直接介入による予測の因果関係を探索し,(2)特定の層に敵対的脆弱性を体系的に局在させることにより,モデルの障害モードを探索する,という2つの重要な応用を可能にする。
論文 参考訳(メタデータ) (2025-09-26T07:51:03Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。