論文の概要: From Isolation to Entanglement: When Do Interpretability Methods Identify and Disentangle Known Concepts?
- arxiv url: http://arxiv.org/abs/2512.15134v1
- Date: Wed, 17 Dec 2025 06:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.880717
- Title: From Isolation to Entanglement: When Do Interpretability Methods Identify and Disentangle Known Concepts?
- Title(参考訳): 孤立から絡み合いへ:解釈可能性法はいつ概念を識別し、解離させるのか?
- Authors: Aaron Mueller, Andrew Lee, Shruti Joshi, Ekdeep Singh Lubana, Dhanya Sridhar, Patrik Reizinger,
- Abstract要約: スパースオートエンコーダ (SAEs) やスパースプローブ (sparse probes) を含む一般的なデファチュアライズ手法がこれらの概念の非絡み合い表現を復元するかどうかは不明である。
まず,各概念の絡み合った表現を,相関関係の強みを増すことによって学習できる程度の評価を行った。
次に、各概念が独立して操作可能であるかどうかを測定するステアリング実験を行う。
- 参考スコア(独自算出の注目度): 28.267480861600784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central goal of interpretability is to recover representations of causally relevant concepts from the activations of neural networks. The quality of these concept representations is typically evaluated in isolation, and under implicit independence assumptions that may not hold in practice. Thus, it is unclear whether common featurization methods - including sparse autoencoders (SAEs) and sparse probes - recover disentangled representations of these concepts. This study proposes a multi-concept evaluation setting where we control the correlations between textual concepts, such as sentiment, domain, and tense, and analyze performance under increasing correlations between them. We first evaluate the extent to which featurizers can learn disentangled representations of each concept under increasing correlational strengths. We observe a one-to-many relationship from concepts to features: features correspond to no more than one concept, but concepts are distributed across many features. Then, we perform steering experiments, measuring whether each concept is independently manipulable. Even when trained on uniform distributions of concepts, SAE features generally affect many concepts when steered, indicating that they are neither selective nor independent; nonetheless, features affect disjoint subspaces. These results suggest that correlational metrics for measuring disentanglement are generally not sufficient for establishing independence when steering, and that affecting disjoint subspaces is not sufficient for concept selectivity. These results underscore the importance of compositional evaluations in interpretability research.
- Abstract(参考訳): 解釈可能性の中心的な目標は、ニューラルネットワークの活性化から因果関係の概念の表現を復元することである。
これらの概念表現の質は、通常孤立して評価され、実際には保持されない暗黙の独立仮定の下で評価される。
したがって、スパースオートエンコーダ (SAE) やスパースプローブ (sparse probe) を含む一般的なデファチュアライズ手法が、これらの概念の不整合表現を復元するかどうかは不明である。
本研究では,感情,ドメイン,緊張などのテキスト概念間の相関関係を制御し,その相関関係を増大させる多概念評価環境を提案する。
まず,各概念の絡み合った表現を,相関関係の強みを増すことによって学習できる程度の評価を行った。
概念から特徴への1対多の関係を観察する: 特徴は1つ以上の概念に対応するが、概念は多くの特徴に分散している。
そして、各概念が独立して操作可能であるかどうかを測定するステアリング実験を行う。
概念の均一分布を訓練しても、SAEの特徴は一般にステアリング時に多くの概念に影響を与え、それらが選択的でも独立的でもないことを示している。
これらの結果から,不整合度を測定するための相関指標は,ステアリング時に独立性を確立するには不十分であり,不整合部分空間への影響は概念選択に十分でないことが示唆された。
これらの結果は,解釈可能性研究における構成的評価の重要性を浮き彫りにした。
関連論文リスト
- A Geometric Unification of Concept Learning with Concept Cones [58.70836885177496]
解釈可能性の2つの伝統は、並べて進化してきたが、互いに話すことはめったにない:概念ボトルネックモデル(CBM)とスパースオートエンコーダ(SAE)。
両パラダイムが同じ幾何学的構造をインスタンス化することを示す。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
論文 参考訳(メタデータ) (2025-12-08T09:51:46Z) - Priors in Time: Missing Inductive Biases for Language Model Interpretability [58.07412640266836]
スパースオートエンコーダは、時間とともに概念の独立を前提としており、定常性を暗示している。
本稿では,時間的帰納バイアスを持つ新たな解釈可能性目標である時間的特徴分析を導入し,その表現を2つの部分に分解する。
私たちの結果は、堅牢な解釈可能性ツールの設計において、データにマッチする帰納的バイアスの必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2025-11-03T18:43:48Z) - Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space [62.54887038032942]
ソフトシンキング(Soft Thinking)は、ソフトで抽象的な概念トークンを生成することによって、人間のような「ソフト」推論をエミュレートする訓練不要な手法である。
これらの概念トークンは、連続的な概念空間を形成するトークン埋め込みの確率重み付き混合によって生成される。
本質的に、生成された概念トークンは関連する離散トークンから複数の意味をカプセル化し、暗黙的に様々な推論経路を探索する。
論文 参考訳(メタデータ) (2025-05-21T17:29:15Z) - Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [13.877511370053794]
概念ボトルネックモデル(CBM)は、高次元データから解釈可能な概念を学ぶことでこれらの課題に対処する。
本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
合成および画像のベンチマークにおいて、我々のフレームワークを評価し、学習された概念が不純物が少なく、しばしば他のCBMよりも正確であることを示す。
論文 参考訳(メタデータ) (2025-02-10T15:01:56Z) - Concept-Based Explainable Artificial Intelligence: Metrics and Benchmarks [0.0]
概念に基づく説明手法は、機械学習モデルの解釈可能性を改善することを目的としている。
本稿では,大域的重要度,概念存在度,概念位置度という3つの指標を提案する。
多くの場合、ポストホックCBMによって決定される最も重要な概念でさえ、入力画像には存在しないことが示される。
論文 参考訳(メタデータ) (2025-01-31T16:32:36Z) - I Bet You Did Not Mean That: Testing Semantic Importance via Betting [8.909843275476264]
我々は、条件付き独立性を用いて不透明モデルの予測に対する意味論的概念のグローバル(すなわち人口以上)とローカル(すなわちサンプル)の統計的重要性を定式化する。
我々は、シーケンシャルなカーネル化独立テストという最近の考え方を用いて、概念間の重要度を誘導し、我々のフレームワークの有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2024-05-29T14:51:41Z) - Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。
予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。
2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - CURI: A Benchmark for Productive Concept Learning Under Uncertainty [33.83721664338612]
我々は、新しい数ショットメタラーニングベンチマーク、コンポジション推論を不確実性の下で導入する(CURI)。
CURIは、疎結合、生産的一般化、学習操作、変数バインディングなどの抽象的な理解を含む、生産的および体系的な一般化の異なる側面を評価します。
また、モデルに依存しない「構成性ギャップ」を定義し、それぞれの軸に沿って分布外分布を一般化することの難しさを評価する。
論文 参考訳(メタデータ) (2020-10-06T16:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。