論文の概要: Understanding Task Representations in Neural Networks via Bayesian Ablation
- arxiv url: http://arxiv.org/abs/2505.13742v1
- Date: Mon, 19 May 2025 21:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.547393
- Title: Understanding Task Representations in Neural Networks via Bayesian Ablation
- Title(参考訳): ベイジアンアブレーションによるニューラルネットワークにおけるタスク表現の理解
- Authors: Andrew Nam, Declan Campbell, Thomas Griffiths, Jonathan Cohen, Sarah-Jane Leslie,
- Abstract要約: 本稿ではニューラルネットワークにおける潜在タスク表現を解釈するための新しい確率的フレームワークを提案する。
ベイズ推定にインスパイアされた本手法は,タスク性能に対する因果的寄与を推定するために,表現単位を超越した分布を定義する。
- 参考スコア(独自算出の注目度): 1.3980986259786223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are powerful tools for cognitive modeling due to their flexibility and emergent properties. However, interpreting their learned representations remains challenging due to their sub-symbolic semantics. In this work, we introduce a novel probabilistic framework for interpreting latent task representations in neural networks. Inspired by Bayesian inference, our approach defines a distribution over representational units to infer their causal contributions to task performance. Using ideas from information theory, we propose a suite of tools and metrics to illuminate key model properties, including representational distributedness, manifold complexity, and polysemanticity.
- Abstract(参考訳): ニューラルネットワークは、その柔軟性と創発性のために認知モデリングの強力なツールである。
しかし、サブシンボリック・セマンティクスのため、学習した表現を解釈することは依然として困難である。
本稿では,ニューラルネットワークにおける潜在タスク表現を解釈するための新しい確率的フレームワークを提案する。
ベイズ推定にインスパイアされた本手法は,タスク性能に対する因果的寄与を推定するために,表現単位を超越した分布を定義する。
情報理論のアイデアを用いて,表現的分散性,多様体の複雑性,多意味性などの重要なモデル特性を照らし出すためのツールとメトリクスの組を提案する。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - A Comprehensive Survey on Self-Interpretable Neural Networks [36.0575431131253]
自己解釈型ニューラルネットワークは、本質的にモデル構造を通して予測合理的性を明らかにする。
まず、自己解釈型ニューラルネットワークに関する既存の研究を収集、レビューし、その方法論を構造化した概要を提供する。
また、モデル説明の具体的、可視化された例を示し、その適用性について様々なシナリオで論じる。
論文 参考訳(メタデータ) (2025-01-26T18:50:16Z) - Identifying Sub-networks in Neural Networks via Functionally Similar Representations [41.028797971427124]
我々は、異なるサブネットワークの存在を調査し、ネットワークの理解を自動化するための一歩を踏み出した。
具体的には、ニューラルネットワーク内の機能的に類似した表現の概念に基づく、新しい自動化されたタスク非依存のアプローチについて検討する。
提案手法は,人間と計算コストを最小限に抑えたニューラルネットワークの動作に関する有意義な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-21T20:19:00Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - Sparse Relational Reasoning with Object-Centric Representations [78.83747601814669]
対象中心表現の操作において,リレーショナルニューラルアーキテクチャによって学習されたソフトルールの構成可能性について検討する。
特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-07-15T14:57:33Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Making Sense of CNNs: Interpreting Deep Representations & Their
Invariances with INNs [19.398202091883366]
INN に基づくアプローチとして, (i) タスク固有の学習的不変性を, (ii) モデル表現と組み合わさった不変性を, (ii) アクセシブルなセマンティックな概念によって, 可逆的に変換する手法を提案する。
我々の非可逆的アプローチは、その性能を損なうことなく、最先端ネットワークのポストホックな解釈を可能にすることでブラックボックスモデルを理解する能力を大幅に拡張する。
論文 参考訳(メタデータ) (2020-08-04T19:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。