論文の概要: Understanding Distributed Representations of Concepts in Deep Neural
Networks without Supervision
- arxiv url: http://arxiv.org/abs/2312.17285v2
- Date: Tue, 5 Mar 2024 23:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:33:04.228234
- Title: Understanding Distributed Representations of Concepts in Deep Neural
Networks without Supervision
- Title(参考訳): スーパービジョンのないディープニューラルネットワークにおける概念の分散表現の理解
- Authors: Wonjoon Chang, Dahee Kwon, Jaesik Choi
- Abstract要約: 本稿では,ニューロンの主部分集合を選択することによって,概念の分散表現を発見する教師なし手法を提案する。
我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。
データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために利用することができる。
- 参考スコア(独自算出の注目度): 25.449397570387802
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding intermediate representations of the concepts learned by deep
learning classifiers is indispensable for interpreting general model behaviors.
Existing approaches to reveal learned concepts often rely on human supervision,
such as pre-defined concept sets or segmentation processes. In this paper, we
propose a novel unsupervised method for discovering distributed representations
of concepts by selecting a principal subset of neurons. Our empirical findings
demonstrate that instances with similar neuron activation states tend to share
coherent concepts. Based on the observations, the proposed method selects
principal neurons that construct an interpretable region, namely a Relaxed
Decision Region (RDR), encompassing instances with coherent concepts in the
feature space. It can be utilized to identify unlabeled subclasses within data
and to detect the causes of misclassifications. Furthermore, the applicability
of our method across various layers discloses distinct distributed
representations over the layers, which provides deeper insights into the
internal mechanisms of the deep learning model.
- Abstract(参考訳): ディープラーニング分類器によって学習される概念の中間表現を理解することは、一般的なモデル行動の解釈に不可欠である。
学習された概念を明らかにする既存のアプローチは、事前定義された概念セットやセグメンテーションプロセスのような人間の監督に依存することが多い。
本稿では,ニューロンの主部分集合を選択することで,概念の分散表現を発見できる新しい教師なし手法を提案する。
我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。
提案手法は, 解釈可能な領域を構成する主ニューロン, すなわちRelaxed Decision Region (RDR) を選択し, 特徴空間におけるコヒーレントな概念を包含する。
データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために使用できる。
さらに,各層にまたがる手法の適用性は,各層にまたがる異なる分散表現を明らかにし,深層学習モデルの内部メカニズムに関する深い洞察を提供する。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Compositional Concept-Based Neuron-Level Interpretability for Deep Reinforcement Learning [2.9539724161670167]
深部強化学習(DRL)は多くの複雑な制御問題に対処することに成功している。
現在のDRL解釈法は主にニューラルネットワークをブラックボックスとして扱う。
本稿では,ニューロンレベルでのDRLモデルの詳細な説明を提供する,新しい概念に基づく解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2025-02-02T06:05:49Z) - CoLiDR: Concept Learning using Aggregated Disentangled Representations [29.932706137805713]
概念に基づくモデルを用いたディープニューラルネットワークの解釈可能性は、人間の理解可能な概念を通じてモデルの振る舞いを説明する有望な方法を提供する。
並列的な研究は、データ分散をその基盤となる生成因子に切り離し、データ生成プロセスを説明することに重点を置いている。
どちらの方向も広く注目されているが、数学的に不整合な表現と人間の理解可能な概念を統一するための生成的要因の観点から概念を説明する研究はほとんど行われていない。
論文 参考訳(メタデータ) (2024-07-27T16:55:14Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Concept backpropagation: An Explainable AI approach for visualising
learned concepts in neural network models [0.0]
本稿では,ある概念を表す情報が与えられたニューラルネットワークモデルにどのように内在化されているかを分析する方法として,Emphconcept backpropagationという概念検出手法の拡張を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:21:13Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Unsupervised Interpretable Basis Extraction for Concept-Based Visual
Explanations [53.973055975918655]
提案手法を用いて抽出したベースに変換すると,中間層表現がより解釈可能であることを示す。
提案手法は,提案手法を教師付きアプローチから抽出したベースと,教師付き手法から抽出したベースを比較した結果,教師なし手法は教師付き手法の限界を構成する強みを有し,今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2023-03-19T00:37:19Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Cause and Effect: Concept-based Explanation of Neural Networks [3.883460584034766]
ニューロンの内部表現や概念に対するニューロンの活性化を調べることで、ニューラルネットワークの解釈可能性の一歩を踏み出します。
概念(またはその否定)とタスククラスの間の因果関係の存在を確認するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-14T18:54:17Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。