論文の概要: The Deleuzian Representation Hypothesis
- arxiv url: http://arxiv.org/abs/2512.19734v1
- Date: Wed, 17 Dec 2025 11:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.607938
- Title: The Deleuzian Representation Hypothesis
- Title(参考訳): Deleuzian Representation hypothesis
- Authors: Clément Cornet, Romaric Besançon, Hervé Le Borgne,
- Abstract要約: 本稿では,ニューラルネットワークから解釈可能な概念を抽出する簡易かつ効果的な教師なし手法として,スパースオートエンコーダ(SAE)の代替案を提案する。
中心となる考え方は、アクティベーションの違いをクラスタ化することです。
5つのモデルと3つのモードでアプローチを評価し、コンセプトの品質、多様性、一貫性を測定します。
- 参考スコア(独自算出の注目度): 5.593753320304013
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an alternative to sparse autoencoders (SAEs) as a simple and effective unsupervised method for extracting interpretable concepts from neural networks. The core idea is to cluster differences in activations, which we formally justify within a discriminant analysis framework. To enhance the diversity of extracted concepts, we refine the approach by weighting the clustering using the skewness of activations. The method aligns with Deleuze's modern view of concepts as differences. We evaluate the approach across five models and three modalities (vision, language, and audio), measuring concept quality, diversity, and consistency. Our results show that the proposed method achieves concept quality surpassing prior unsupervised SAE variants while approaching supervised baselines, and that the extracted concepts enable steering of a model's inner representations, demonstrating their causal influence on downstream behavior.
- Abstract(参考訳): 本稿では,ニューラルネットワークから解釈可能な概念を抽出する簡易かつ効果的な教師なし手法として,スパースオートエンコーダ(SAE)の代替案を提案する。
中心となる考え方は、アクティベーションの違いをクラスタ化することです。
抽出された概念の多様性を高めるために,アクティベーションの歪度を用いてクラスタリングを重み付けすることで,アプローチを洗練する。
この方法は、Deleuzeの現代的な概念観と相違点として一致する。
5つのモデルと3つのモード(ビジョン、言語、オーディオ)にまたがってアプローチを評価し、概念の質、多様性、一貫性を測定します。
提案手法は,教師なしベースラインに近づきながら,教師なしベースラインを超越した概念品質を実現し,抽出した概念はモデルの内部表現のステアリングを可能にし,下流動作に対する因果的影響を示す。
関連論文リスト
- Towards more holistic interpretability: A lightweight disentangled Concept Bottleneck Model [5.700536552863068]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念を中間表現として予測することにより、解釈可能性を高める。
本稿では,視覚的特徴を意味論的に意味のある構成要素に自動的に分類する軽量なDECBMを提案する。
3つの多様なデータセットの実験により、LCDBMはより高い概念とクラス精度を達成し、解釈可能性と分類性能の両方において従来のCBMよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2025-10-17T15:59:30Z) - FACE: Faithful Automatic Concept Extraction [4.417419748257645]
FACE(Faithful Automatic Concept extract)は、KL(Kullback-Leibler)の発散正規化項で非負行列因子化(NMF)を強化する新しいフレームワークである。
我々は,KL分散の最小化が予測分布の偏差を制限し,学習された概念空間における忠実な局所線型性を促進することを理論的保証する。
論文 参考訳(メタデータ) (2025-10-13T17:44:45Z) - Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Quantifying Structure in CLIP Embeddings: A Statistical Framework for Concept Interpretation [13.206499575700219]
概念に基づくアプローチは、モデルの内部表現の中で人間の理解可能な概念を特定することを目的としている。
現在の手法では統計的厳密さが欠如しており、特定の概念を検証し、異なる手法を比較することは困難である。
本稿では,CLIP埋め込み空間内の回転感度構造を定量化する仮説テストフレームワークを提案する。
既存のアプローチとは異なり、発見された概念は堅牢で再現可能なパターンを表すという理論的保証を提供する。
論文 参考訳(メタデータ) (2025-06-16T02:43:11Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Understanding Distributed Representations of Concepts in Deep Neural
Networks without Supervision [25.449397570387802]
本稿では,ニューロンの主部分集合を選択することによって,概念の分散表現を発見する教師なし手法を提案する。
我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。
データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために利用することができる。
論文 参考訳(メタデータ) (2023-12-28T07:33:51Z) - Deep Concept Removal [29.65899467379793]
ディープニューラルネットワークにおける概念除去の問題に対処する。
本稿では,概念データセットに基づいて学習した逆線形分類器に基づく新しい手法を提案する。
また,逆行訓練に伴う課題に対処するために,暗黙の勾配に基づく手法を導入する。
論文 参考訳(メタデータ) (2023-10-09T14:31:03Z) - Unsupervised Interpretable Basis Extraction for Concept-Based Visual Explanations [44.033369364364084]
本研究は,CNN画像分類器の予測と中間層表現を,人間の理解可能な概念の観点から説明しようとするものである。
ボトムアップアプローチを採用し、概念ラベルの監督に頼ることなく、機能空間の構造から方向を一括して識別する。
既存の基盤解釈可能性指標の拡張を行い、抽出したベースに変換すると中間層表現がより解釈可能であることを示す。
論文 参考訳(メタデータ) (2023-03-19T00:37:19Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。