Fugu-MT 論文翻訳(概要): Concept-Guided Interpretability via Neural Chunking

論文の概要: Concept-Guided Interpretability via Neural Chunking

arxiv url: http://arxiv.org/abs/2505.11576v1
Date: Fri, 16 May 2025 13:49:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.717112
Title: Concept-Guided Interpretability via Neural Chunking
Title（参考訳）: ニューラルチャンキングによる概念ガイドによる解釈可能性
Authors: Shuchen Wu, Stephan Alaniz, Shyamgopal Karthik, Peter Dayan, Eric Schulz, Zeynep Akata,
Abstract要約: ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
参考スコア（独自算出の注目度）: 54.73787666584143
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural networks are often black boxes, reflecting the significant challenge of understanding their internal workings. We propose a different perspective that challenges the prevailing view: rather than being inscrutable, neural networks exhibit patterns in their raw population activity that mirror regularities in the training data. We refer to this as the Reflection Hypothesis and provide evidence for this phenomenon in both simple recurrent neural networks (RNNs) and complex large language models (LLMs). Building on this insight, we propose to leverage cognitively-inspired methods of chunking to segment high-dimensional neural population dynamics into interpretable units that reflect underlying concepts. We propose three methods to extract these emerging entities, complementing each other based on label availability and dimensionality. Discrete sequence chunking (DSC) creates a dictionary of entities; population averaging (PA) extracts recurring entities that correspond to known labels; and unsupervised chunk discovery (UCD) can be used when labels are absent. We demonstrate the effectiveness of these methods in extracting entities across varying model sizes, ranging from inducing compositionality in RNNs to uncovering recurring neural population states in large models with diverse architectures, and illustrate their advantage over other methods. Throughout, we observe a robust correspondence between the extracted entities and concrete or abstract concepts. Artificially inducing the extracted entities in neural populations effectively alters the network's generation of associated concepts. Our work points to a new direction for interpretability, one that harnesses both cognitive principles and the structure of naturalistic data to reveal the hidden computations of complex learning systems, gradually transforming them from black boxes into systems we can begin to understand.
Abstract（参考訳）: ニューラルネットワークはしばしばブラックボックスであり、内部動作を理解するという大きな課題を反映している。ニューラルネットワークは、調査不可能ではなく、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。我々はこれを反射仮説と呼び、単純なリカレントニューラルネットワーク(RNN)と複雑な大言語モデル(LLM)の両方において、この現象の証拠を提供する。この知見に基づいて、認知にインスパイアされたチャンキングの手法を利用して、高次元の神経集団動態を、基礎概念を反映した解釈可能な単位に分割することを提案する。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。離散シーケンスチャンキング(DSC)はエンティティの辞書を作成し、人口平均化(PA)は既知のラベルに対応する繰り返しエンティティを抽出する。本稿では, RNNにおける構成性の導入から, 多様なアーキテクチャを持つ大規模モデルにおける繰り返し発生する神経集団状態の発見に至るまで, 様々なモデルサイズにまたがる実体抽出におけるこれらの手法の有効性を実証し, その他の手法に対する優位性を示す。全体を通して,抽出された実体と具体的あるいは抽象的な概念との堅牢な対応を観察する。神経集団における抽出された実体を人工的に誘導することは、ネットワークの関連する概念の生成を効果的に変える。私たちの研究は、認識原理と自然主義的データの構造の両方を活用して、複雑な学習システムの隠れた計算を明らかにし、徐々にブラックボックスから私たちが理解し始めるシステムへと変換する、解釈可能性のための新しい方向を指し示しています。

関連論文リスト

From superposition to sparse codes: interpretable representations in neural networks [3.6738925004882685]
最近の証拠は、ニューラルネットワークが重畳の特徴を符号化していることを示唆している。本稿では、この現象を説明する視点を示し、ニューラルアクティベーションから解釈可能な表現を抽出するための基盤を提供する。我々の議論は、ニューラルコーディング理論、AI透明性、ディープラーニングモデルをより解釈可能なものにするというより広い目標に影響を及ぼす。
論文参考訳（メタデータ） (2025-03-03T18:49:59Z)
Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文参考訳（メタデータ） (2025-02-03T20:30:46Z)
Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文参考訳（メタデータ） (2024-06-14T13:12:07Z)
Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks [0.0]
教師なし表現学習が可能な脳様ニューラルネットワークモデルを導入,評価する。このモデルは、一般的な機械学習ベンチマークのさまざまなセットでテストされた。
論文参考訳（メタデータ） (2024-06-07T08:32:30Z)
Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文参考訳（メタデータ） (2024-04-22T17:00:57Z)
Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文参考訳（メタデータ） (2024-01-11T18:57:17Z)
Removing Spurious Concepts from Neural Network Representations via Joint Subspace Estimation [0.0]
ニューラルネットワークにおけるアウト・オブ・ディストリビューションの一般化は、しばしば素早い相関によって妨げられる。既存の概念除去手法は、モデルの主要なタスクに関連する機能を不注意に排除することで、過熱する傾向にある。本稿では,ニューラルネットワーク表現における2つの低次元部分空間を共同で同定することにより,主タスク概念から突発性を分離する反復アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-18T14:22:36Z)
Interpretable part-whole hierarchies and conceptual-semantic relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文参考訳（メタデータ） (2022-03-07T10:56:13Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文参考訳（メタデータ） (2021-10-12T23:22:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。