論文の概要: From superposition to sparse codes: interpretable representations in neural networks
- arxiv url: http://arxiv.org/abs/2503.01824v1
- Date: Mon, 03 Mar 2025 18:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:31.215770
- Title: From superposition to sparse codes: interpretable representations in neural networks
- Title(参考訳): 重ね合わせからスパース符号へ:ニューラルネットワークにおける解釈可能な表現
- Authors: David Klindt, Charles O'Neill, Patrik Reizinger, Harald Maurer, Nina Miolane,
- Abstract要約: 最近の証拠は、ニューラルネットワークが重畳の特徴を符号化していることを示唆している。
本稿では、この現象を説明する視点を示し、ニューラルアクティベーションから解釈可能な表現を抽出するための基盤を提供する。
我々の議論は、ニューラルコーディング理論、AI透明性、ディープラーニングモデルをより解釈可能なものにするというより広い目標に影響を及ぼす。
- 参考スコア(独自算出の注目度): 3.6738925004882685
- License:
- Abstract: Understanding how information is represented in neural networks is a fundamental challenge in both neuroscience and artificial intelligence. Despite their nonlinear architectures, recent evidence suggests that neural networks encode features in superposition, meaning that input concepts are linearly overlaid within the network's representations. We present a perspective that explains this phenomenon and provides a foundation for extracting interpretable representations from neural activations. Our theoretical framework consists of three steps: (1) Identifiability theory shows that neural networks trained for classification recover latent features up to a linear transformation. (2) Sparse coding methods can extract disentangled features from these representations by leveraging principles from compressed sensing. (3) Quantitative interpretability metrics provide a means to assess the success of these methods, ensuring that extracted features align with human-interpretable concepts. By bridging insights from theoretical neuroscience, representation learning, and interpretability research, we propose an emerging perspective on understanding neural representations in both artificial and biological systems. Our arguments have implications for neural coding theories, AI transparency, and the broader goal of making deep learning models more interpretable.
- Abstract(参考訳): 情報がどのようにニューラルネットワークで表現されるかを理解することは、神経科学と人工知能の両方において根本的な課題である。
非線形アーキテクチャにもかかわらず、最近の証拠はニューラルネットワークが重ね合わせの特徴を符号化していることを示唆している。
本稿では、この現象を説明する視点を示し、ニューラルアクティベーションから解釈可能な表現を抽出するための基盤を提供する。
理論的枠組みは3つの段階から構成される: 1) 識別可能性理論は、分類のための訓練されたニューラルネットワークが、線形変換まで遅延特徴を回復することを示す。
2) 疎符号法は, 圧縮センシングの原理を生かして, これらの表現から絡み合った特徴を抽出することができる。
3)定量的解釈可能性指標は,これらの手法の成功を評価する手段となり,抽出された特徴が人間の解釈可能な概念と一致することを保証する。
理論的神経科学、表現学習、解釈可能性研究からの洞察をブリッジすることで、人工システムと生体システムの両方における神経表現を理解するための新たな視点を提案する。
我々の議論は、ニューラルコーディング理論、AI透明性、ディープラーニングモデルをより解釈可能なものにするというより広い目標に影響を及ぼす。
関連論文リスト
- Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Understanding polysemanticity in neural networks through coding theory [0.8702432681310401]
本稿では,ネットワークの解釈可能性に関する新たな実践的アプローチと,多意味性やコードの密度に関する理論的考察を提案する。
ランダムなプロジェクションによって、ネットワークがスムーズか非微分可能かが明らかになり、コードがどのように解釈されるかを示す。
我々のアプローチは、ニューラルネットワークにおける解釈可能性の追求を前進させ、その基盤となる構造についての洞察を与え、回路レベルの解釈可能性のための新たな道を提案する。
論文 参考訳(メタデータ) (2024-01-31T16:31:54Z) - Formal Conceptual Views in Neural Networks [0.0]
本稿では,ニューラルネットワークの概念的視点,特に多値・記号的視点の2つの概念を紹介する。
我々は、ImageNetとFruit-360データセットの異なる実験を通して、新しいビューの概念的表現性をテストする。
本研究では,ニューロンからの人間の理解可能なルールの帰納的学習に概念的視点が適用可能であることを実証する。
論文 参考訳(メタデータ) (2022-09-27T16:38:24Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - Interpretability of Neural Network With Physiological Mechanisms [5.1971653175509145]
ディープラーニングは、レグレッションと分類タスクの様々な領域で異常な精度を達成した強力な最先端技術として、引き続き機能している。
ニューラルネットワークモデルを最初に提案する目的は、数学的表現アプローチを使用して複雑な人間の脳を理解することを改善することである。
近年のディープラーニング技術は、ブラックボックス近似器として扱われることによって、機能的プロセスの解釈を失う傾向にある。
論文 参考訳(メタデータ) (2022-03-24T21:40:04Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Explainable artificial intelligence for mechanics: physics-informing
neural networks for constitutive models [0.0]
メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。
本論文では,機械データに訓練されたニューラルネットワークを後述する物理形成型アプローチへの第一歩を提案する。
これにより、主成分分析はRNNの細胞状態における分散表現をデコレーションし、既知の基本関数との比較を可能にする。
論文 参考訳(メタデータ) (2021-04-20T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。