Fugu-MT 論文翻訳(概要): From superposition to sparse codes: interpretable representations in neural networks

論文の概要: From superposition to sparse codes: interpretable representations in neural networks

arxiv url: http://arxiv.org/abs/2503.01824v1
Date: Mon, 03 Mar 2025 18:49:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.173455
Title: From superposition to sparse codes: interpretable representations in neural networks
Title（参考訳）: 重ね合わせからスパース符号へ:ニューラルネットワークにおける解釈可能な表現
Authors: David Klindt, Charles O'Neill, Patrik Reizinger, Harald Maurer, Nina Miolane,
Abstract要約: 最近の証拠は、ニューラルネットワークが重畳の特徴を符号化していることを示唆している。本稿では、この現象を説明する視点を示し、ニューラルアクティベーションから解釈可能な表現を抽出するための基盤を提供する。我々の議論は、ニューラルコーディング理論、AI透明性、ディープラーニングモデルをより解釈可能なものにするというより広い目標に影響を及ぼす。
参考スコア（独自算出の注目度）: 3.6738925004882685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding how information is represented in neural networks is a fundamental challenge in both neuroscience and artificial intelligence. Despite their nonlinear architectures, recent evidence suggests that neural networks encode features in superposition, meaning that input concepts are linearly overlaid within the network's representations. We present a perspective that explains this phenomenon and provides a foundation for extracting interpretable representations from neural activations. Our theoretical framework consists of three steps: (1) Identifiability theory shows that neural networks trained for classification recover latent features up to a linear transformation. (2) Sparse coding methods can extract disentangled features from these representations by leveraging principles from compressed sensing. (3) Quantitative interpretability metrics provide a means to assess the success of these methods, ensuring that extracted features align with human-interpretable concepts. By bridging insights from theoretical neuroscience, representation learning, and interpretability research, we propose an emerging perspective on understanding neural representations in both artificial and biological systems. Our arguments have implications for neural coding theories, AI transparency, and the broader goal of making deep learning models more interpretable.
Abstract（参考訳）: 情報がどのようにニューラルネットワークで表現されるかを理解することは、神経科学と人工知能の両方において根本的な課題である。非線形アーキテクチャにもかかわらず、最近の証拠はニューラルネットワークが重ね合わせの特徴を符号化していることを示唆している。本稿では、この現象を説明する視点を示し、ニューラルアクティベーションから解釈可能な表現を抽出するための基盤を提供する。理論的枠組みは3つの段階から構成される: 1) 識別可能性理論は、分類のための訓練されたニューラルネットワークが、線形変換まで遅延特徴を回復することを示す。 2) 疎符号法は, 圧縮センシングの原理を生かして, これらの表現から絡み合った特徴を抽出することができる。 3)定量的解釈可能性指標は,これらの手法の成功を評価する手段となり,抽出された特徴が人間の解釈可能な概念と一致することを保証する。理論的神経科学、表現学習、解釈可能性研究からの洞察をブリッジすることで、人工システムと生体システムの両方における神経表現を理解するための新たな視点を提案する。我々の議論は、ニューラルコーディング理論、AI透明性、ディープラーニングモデルをより解釈可能なものにするというより広い目標に影響を及ぼす。

関連論文リスト

Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文参考訳（メタデータ） (2025-02-03T20:30:46Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文参考訳（メタデータ） (2024-03-18T18:01:01Z)
Understanding polysemanticity in neural networks through coding theory [0.8702432681310401]
本稿では,ネットワークの解釈可能性に関する新たな実践的アプローチと,多意味性やコードの密度に関する理論的考察を提案する。ランダムなプロジェクションによって、ネットワークがスムーズか非微分可能かが明らかになり、コードがどのように解釈されるかを示す。我々のアプローチは、ニューラルネットワークにおける解釈可能性の追求を前進させ、その基盤となる構造についての洞察を与え、回路レベルの解釈可能性のための新たな道を提案する。
論文参考訳（メタデータ） (2024-01-31T16:31:54Z)
Formal Conceptual Views in Neural Networks [0.0]
本稿では,ニューラルネットワークの概念的視点,特に多値・記号的視点の2つの概念を紹介する。我々は、ImageNetとFruit-360データセットの異なる実験を通して、新しいビューの概念的表現性をテストする。本研究では,ニューロンからの人間の理解可能なルールの帰納的学習に概念的視点が適用可能であることを実証する。
論文参考訳（メタデータ） (2022-09-27T16:38:24Z)
Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文参考訳（メタデータ） (2022-05-30T18:04:57Z)
Interpretability of Neural Network With Physiological Mechanisms [5.1971653175509145]
ディープラーニングは、レグレッションと分類タスクの様々な領域で異常な精度を達成した強力な最先端技術として、引き続き機能している。ニューラルネットワークモデルを最初に提案する目的は、数学的表現アプローチを使用して複雑な人間の脳を理解することを改善することである。近年のディープラーニング技術は、ブラックボックス近似器として扱われることによって、機能的プロセスの解釈を失う傾向にある。
論文参考訳（メタデータ） (2022-03-24T21:40:04Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Explainable artificial intelligence for mechanics: physics-informing neural networks for constitutive models [0.0]
メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。本論文では,機械データに訓練されたニューラルネットワークを後述する物理形成型アプローチへの第一歩を提案する。これにより、主成分分析はRNNの細胞状態における分散表現をデコレーションし、既知の基本関数との比較を可能にする。
論文参考訳（メタデータ） (2021-04-20T18:38:52Z)
A Minimalist Dataset for Systematic Generalization of Perception, Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。 HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文参考訳（メタデータ） (2021-03-02T01:32:54Z)
Neuron-based explanations of neural networks sacrifice completeness and interpretability [67.53271920386851]
我々は、ImageNetで事前訓練されたAlexNetに対して、ニューロンに基づく説明法が完全性と解釈可能性の両方を犠牲にすることを示す。我々は、最も重要な主成分が、最も重要なニューロンよりも完全で解釈可能な説明を提供することを示す。この結果から,AlexNet などのネットワークに対する説明手法は,ニューロンを埋め込みの基盤として使用するべきではないことが示唆された。
論文参考訳（メタデータ） (2020-11-05T21:26:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。