論文の概要: Concept-SAE: Active Causal Probing of Visual Model Behavior
- arxiv url: http://arxiv.org/abs/2509.22015v1
- Date: Fri, 26 Sep 2025 07:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.28006
- Title: Concept-SAE: Active Causal Probing of Visual Model Behavior
- Title(参考訳): Concept-SAE:視覚モデル行動の活発な因果探索
- Authors: Jianrong Ding, Muxi Chen, Chenchen Zhao, Qiang Xu,
- Abstract要約: Concept-SAEは、概念トークンを意味的に基礎づけるフレームワークである。
まず、我々の二重スーパービジョンアプローチが、著しく忠実で空間的に局在したトークンを生み出すことを定量的に示す。
この検証された忠実さは,(1)内部概念と直接介入による予測の因果関係を探索し,(2)特定の層に敵対的脆弱性を体系的に局在させることにより,モデルの障害モードを探索する,という2つの重要な応用を可能にする。
- 参考スコア(独自算出の注目度): 10.346577706023139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Sparse Autoencoders (SAEs) excel at discovering a dictionary of a model's learned features, offering a powerful observational lens. However, the ambiguous and ungrounded nature of these features makes them unreliable instruments for the active, causal probing of model behavior. To solve this, we introduce Concept-SAE, a framework that forges semantically grounded concept tokens through a novel hybrid disentanglement strategy. We first quantitatively demonstrate that our dual-supervision approach produces tokens that are remarkably faithful and spatially localized, outperforming alternative methods in disentanglement. This validated fidelity enables two critical applications: (1) we probe the causal link between internal concepts and predictions via direct intervention, and (2) we probe the model's failure modes by systematically localizing adversarial vulnerabilities to specific layers. Concept-SAE provides a validated blueprint for moving beyond correlational interpretation to the mechanistic, causal probing of model behavior.
- Abstract(参考訳): 標準スパースオートエンコーダ(SAE)は、モデルの学習した特徴の辞書を発見し、強力な観察レンズを提供する。
しかし、これらの特徴の曖昧で根拠のない性質は、モデル行動の活発で因果的探索のための信頼性の低い道具である。
この問題を解決するために,概念SAE(Concept-SAE)を紹介した。
まず、我々の二重スーパービジョンアプローチが、極めて忠実で空間的局所性があり、非絡み合いの代替手法よりも優れたトークンを生み出すことを定量的に示す。
この検証された忠実さは,(1)内部概念と直接介入による予測の因果関係を探索し,(2)特定の層に敵対的脆弱性を体系的に局在させることにより,モデルの障害モードを探索する,という2つの重要な応用を可能にする。
概念-SAEは、相関解釈を越えてモデル行動の機械的、因果的探索に移行するための検証済みの青写真を提供する。
関連論文リスト
- The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning [2.0800882594868293]
統一認知意識理論(UCCT)は、これらを巨大な無意識パターンリポジトリとみなしている。
UCCTはこの過程を、事前学習で学んだ統計的事前学習と文脈駆動のターゲットパターンの間のベイズ的競争として定式化している。
我々はこの理論を、しきい値交差、モダリティ、密度距離予測力の3つの原理で基礎づける。
論文 参考訳(メタデータ) (2025-06-02T18:12:43Z) - Vision Foundation Model Embedding-Based Semantic Anomaly Detection [12.940376547110509]
この研究は、最先端のビジョン基盤モデルのセマンティックな先行性を活用することによって、意味的異常の検出を探索する。
本稿では,ランタイム画像からの局所的な視覚埋め込みと,自律システムの安全性と性能を考慮に入れた,名目上のシナリオのデータベースを比較するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-12T19:00:29Z) - Leakage and Interpretability in Concept-Based Models [0.24466725954625887]
概念ボトルネックモデルは、高レベルの中間概念を予測することによって解釈可能性を改善することを目的としている。
それらは情報漏洩に悩まされ、学習された概念の中で符号化された意図しない情報を利用するモデルで知られている。
漏洩を厳格に特徴づけ定量化するための情報理論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-18T22:21:06Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。