論文の概要: Interpretable and Steerable Concept Bottleneck Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2512.10805v1
- Date: Thu, 11 Dec 2025 16:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.469826
- Title: Interpretable and Steerable Concept Bottleneck Sparse Autoencoders
- Title(参考訳): 解釈可能でステアブルな概念ボトルネックスパースオートエンコーダ
- Authors: Akshay Kulkarni, Tsui-Wei Weng, Vivek Narayanaswamy, Shusen Liu, Wesam A. Sakla, Kowshik Thopalli,
- Abstract要約: 本稿では,2つの新しい計算コストの低い解釈可能性とステアビリティ指標を導入し,LVLMの系統解析を行った。
本稿では,低実用性ニューロンを誘発し,ユーザ定義のコンセプトセットに合わせた軽量な概念ボトルネックで潜在空間を拡大する,新しいポストホックフレームワークであるConcept Bottleneck Sparse Autoencoders (CB-SAE)を提案する。
その結果、CB-SAEは解釈可能性を+32.1%改善し、可操性は+14.5%向上した。
- 参考スコア(独自算出の注目度): 20.94500960067637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) promise a unified approach for mechanistic interpretability, concept discovery, and model steering in LLMs and LVLMs. However, realizing this potential requires that the learned features be both interpretable and steerable. To that end, we introduce two new computationally inexpensive interpretability and steerability metrics and conduct a systematic analysis on LVLMs. Our analysis uncovers two observations; (i) a majority of SAE neurons exhibit either low interpretability or low steerability or both, rendering them ineffective for downstream use; and (ii) due to the unsupervised nature of SAEs, user-desired concepts are often absent in the learned dictionary, thus limiting their practical utility. To address these limitations, we propose Concept Bottleneck Sparse Autoencoders (CB-SAE) - a novel post-hoc framework that prunes low-utility neurons and augments the latent space with a lightweight concept bottleneck aligned to a user-defined concept set. The resulting CB-SAE improves interpretability by +32.1% and steerability by +14.5% across LVLMs and image generation tasks. We will make our code and model weights available.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、LLMおよびLVLMにおける機械的解釈可能性、概念発見、モデルステアリングに対する統一的なアプローチを約束する。
しかし、この可能性を実現するには、学習した機能が解釈可能で、操縦可能である必要がある。
そこで我々は,2つの新しい計算コストの安い解釈可能性とステアビリティ指標を導入し,LVLMの系統解析を行った。
私たちの分析では2つの観察結果が明らかになりました。
i)ほとんどのSAEニューロンは、低い解釈可能性または低い操縦性を示すか、または両方を示し、下流での使用には効果がない。
(II)SAEの教師なしの性質のため、学習辞書にはユーザ希望の概念が欠落することが多く、実用性が制限される。
これらの制約に対処するため,概念ボトルネックスパースオートエンコーダ (CB-SAE) を提案する。これは低実用性ニューロンを誘発し,ユーザ定義のコンセプトセットに合わせた軽量な概念ボトルネックで潜在空間を拡大する,新しいポストホックフレームワークである。
その結果、CB-SAEは解釈可能性を+32.1%改善し、可操性は+14.5%向上した。
コードとモデルの重み付けを利用可能にします。
関連論文リスト
- CLMN: Concept based Language Models via Neural Symbolic Reasoning [27.255064617527328]
概念言語モデルネットワーク(CLMN)は、パフォーマンスと解釈可能性の両方を維持するニューラルシンボリックフレームワークである。
CLMNは、連続的、人間可読な埋め込みとして概念を表現している。
Modelは、概念を意識した表現でオリジナルのテキスト機能を拡張し、解釈可能なロジックルールを自動的に誘導する。
論文 参考訳(メタデータ) (2025-10-11T06:58:44Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。
MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文 参考訳(メタデータ) (2025-02-27T22:39:13Z) - Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts [11.81523319216474]
ステアリング法は、大きな言語モデル(LLM)の表現を操作して、望ましい特性を持つ応答を誘導する。
伝統的に、ステアリングは、単一のターゲット概念で異なる対照的なプロンプトのペアなど、監督に依存してきた。
Sparse Shift Autoencoders (SSAE)を導入し、その代わりに埋め込みの違いをスパース表現にマッピングする。
論文 参考訳(メタデータ) (2025-02-14T08:49:41Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。