論文の概要: A Geometric Unification of Concept Learning with Concept Cones
- arxiv url: http://arxiv.org/abs/2512.07355v1
- Date: Mon, 08 Dec 2025 09:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.815009
- Title: A Geometric Unification of Concept Learning with Concept Cones
- Title(参考訳): 概念コーンを用いた概念学習の幾何学的統一
- Authors: Alexandre Rocchi--Henry, Thomas Fel, Gianni Franchi,
- Abstract要約: 解釈可能性の2つの伝統は、並べて進化してきたが、互いに話すことはめったにない:概念ボトルネックモデル(CBM)とスパースオートエンコーダ(SAE)。
両パラダイムが同じ幾何学的構造をインスタンス化することを示す。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
- 参考スコア(独自算出の注目度): 58.70836885177496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two traditions of interpretability have evolved side by side but seldom spoken to each other: Concept Bottleneck Models (CBMs), which prescribe what a concept should be, and Sparse Autoencoders (SAEs), which discover what concepts emerge. While CBMs use supervision to align activations with human-labeled concepts, SAEs rely on sparse coding to uncover emergent ones. We show that both paradigms instantiate the same geometric structure: each learns a set of linear directions in activation space whose nonnegative combinations form a concept cone. Supervised and unsupervised methods thus differ not in kind but in how they select this cone. Building on this view, we propose an operational bridge between the two paradigms. CBMs provide human-defined reference geometries, while SAEs can be evaluated by how well their learned cones approximate or contain those of CBMs. This containment framework yields quantitative metrics linking inductive biases -- such as SAE type, sparsity, or expansion ratio -- to emergence of plausible\footnote{We adopt the terminology of \citet{jacovi2020towards}, who distinguish between faithful explanations (accurately reflecting model computations) and plausible explanations (aligning with human intuition and domain knowledge). CBM concepts are plausible by construction -- selected or annotated by humans -- though not necessarily faithful to the true latent factors that organise the data manifold.} concepts. Using these metrics, we uncover a ``sweet spot'' in both sparsity and expansion factor that maximizes both geometric and semantic alignment with CBM concepts. Overall, our work unifies supervised and unsupervised concept discovery through a shared geometric framework, providing principled metrics to measure SAE progress and assess how well discovered concept align with plausible human concepts.
- Abstract(参考訳): 解釈可能性の2つの伝統は相まって進化してきたが、コンセプト・ボトルネック・モデル(CBM)とスパース・オートエンコーダ(SAE)の2つの概念がどのような概念が生まれるのかを規定する概念・ボトルネック・モデル(CBM)という、ほとんど話し合わなかった。
CBMは、アクティベーションを人間ラベルのコンセプトと整合させるのに監督を用いるが、SAEは創発的な概念を明らかにするためにスパースコーディングに依存している。
どちらのパラダイムも同じ幾何学的構造をインスタンス化し、それぞれが非負の組合せが概念円錐を形成する活性化空間における線形方向の集合を学習する。
したがって、教師なしおよび教師なしの手法は、種別ではなく、どのようにしてこの錐体を選択するかによって異なる。
この観点から,2つのパラダイム間の運用ブリッジを提案する。
CBMは人間の定義した参照ジオメトリを提供するが、SAEは学習した円錐がCBMをどの程度よく近似するか、あるいは包含しているかによって評価することができる。
この包含フレームワークは、インダクティブバイアス(SAEタイプ、スパーシティ、拡張比率など)を、信頼深い説明(モデル計算を正確に反映する)と妥当な説明(人間の直感とドメイン知識を反映する)を区別する、プラトート{jacovi2020towards} という用語の出現に結び付ける定量的なメトリクスを生成する。
CBMの概念は、データ多様体を構成する真の潜伏要因に必ずしも忠実ではないが、構築によって、人間によって選択または注釈付けされる。
コンセプト。
これらの指標を用いて, CBM の概念との幾何学的・意味的整合性を最大化する空間的・拡張的因子の「スイートスポット」を明らかにした。
全体として、我々の研究は、共有された幾何学的枠組みを通じて教師付きおよび教師なしの概念発見を統一し、SAEの進捗を計測し、発見されている概念が有望な人間の概念とどのように一致しているかを評価するための原則化された指標を提供する。
関連論文リスト
- FaCT: Faithful Concept Traces for Explaining Neural Network Decisions [56.796533084868884]
ディープネットワークは、幅広いタスクで顕著なパフォーマンスを示しているが、それらの機能に関するグローバルな概念レベルの理解は、依然として重要な課題である。
本稿では,概念に基づく説明の忠実さを強調し,モデル独立な機械的概念説明を用いた新しいモデルを提案する。
私たちの概念はクラス間で共有され、あらゆるレイヤから、ロジットへの貢献と入力-視覚化を忠実にトレースすることができます。
論文 参考訳(メタデータ) (2025-10-29T13:35:46Z) - Sample-efficient Learning of Concepts with Theoretical Guarantees: from Data to Concepts without Interventions [13.877511370053794]
概念ボトルネックモデル(CBM)は、高次元データから解釈可能な概念を学ぶことでこれらの課題に対処する。
本稿では,学習概念の正しさと必要なラベル数に関する理論的保証を提供する枠組みについて述べる。
合成および画像のベンチマークにおいて、我々のフレームワークを評価し、学習された概念が不純物が少なく、しばしば他のCBMよりも正確であることを示す。
論文 参考訳(メタデータ) (2025-02-10T15:01:56Z) - Concept-Based Explainable Artificial Intelligence: Metrics and Benchmarks [0.0]
概念に基づく説明手法は、機械学習モデルの解釈可能性を改善することを目的としている。
本稿では,大域的重要度,概念存在度,概念位置度という3つの指標を提案する。
多くの場合、ポストホックCBMによって決定される最も重要な概念でさえ、入力画像には存在しないことが示される。
論文 参考訳(メタデータ) (2025-01-31T16:32:36Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Do Concept Bottleneck Models Respect Localities? [14.77558378567965]
概念に基づく説明可能性法は、人間の理解可能な仲介者を用いて機械学習モデルの説明を生成する。
我々は、概念予測者が「関連」機能を利用して予測を行うかどうかを評価する。
概念予測器は必ずしも明確な概念を区別できないため、実際には多くの概念ベースモデルは局所性を尊重しない。
論文 参考訳(メタデータ) (2024-01-02T16:05:23Z) - Concept Activation Regions: A Generalized Framework For Concept-Based
Explanations [95.94432031144716]
既存の手法では、概念を説明する例は、ディープニューラルネットワークの潜伏空間の一定の方向にマッピングされていると仮定している。
そこで本研究では,DNNの潜在空間において,異なるクラスタに分散した概念例を提案する。
この概念活性化領域(CAR)は、グローバルな概念に基づく説明と局所的な概念に基づく特徴の重要性をもたらす。
論文 参考訳(メタデータ) (2022-09-22T17:59:03Z) - Formalising Concepts as Grounded Abstractions [68.24080871981869]
このレポートは、表現学習が生データから概念を誘導する方法を示しています。
このレポートの主な技術的目標は、表現学習のテクニックが概念空間の格子理論的定式化とどのように結婚できるかを示すことである。
論文 参考訳(メタデータ) (2021-01-13T15:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。