論文の概要: From Neurons to Neutrons: A Case Study in Interpretability
- arxiv url: http://arxiv.org/abs/2405.17425v1
- Date: Mon, 27 May 2024 17:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 13:52:58.336279
- Title: From Neurons to Neutrons: A Case Study in Interpretability
- Title(参考訳): ニューロンから中性子へ:解釈可能性のケーススタディ
- Authors: Ouail Kitouni, Niklas Nolte, Víctor Samuel Pérez-Díaz, Sokratis Trifinopoulos, Mike Williams,
- Abstract要約: 高次元ニューラルネットワークはトレーニングデータの低次元表現を学習することができると我々は主張する。
このことは、解釈可能性に対するそのようなアプローチが、問題を解決するために訓練されたモデルから問題に対する新しい理解を導き出すのに有用であることを示している。
- 参考スコア(独自算出の注目度): 5.242869847419834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic Interpretability (MI) promises a path toward fully understanding how neural networks make their predictions. Prior work demonstrates that even when trained to perform simple arithmetic, models can implement a variety of algorithms (sometimes concurrently) depending on initialization and hyperparameters. Does this mean neuron-level interpretability techniques have limited applicability? We argue that high-dimensional neural networks can learn low-dimensional representations of their training data that are useful beyond simply making good predictions. Such representations can be understood through the mechanistic interpretability lens and provide insights that are surprisingly faithful to human-derived domain knowledge. This indicates that such approaches to interpretability can be useful for deriving a new understanding of a problem from models trained to solve it. As a case study, we extract nuclear physics concepts by studying models trained to reproduce nuclear data.
- Abstract(参考訳): 機械的解釈可能性(MI)は、ニューラルネットワークが予測を行う方法を完全に理解する道のりを約束する。
以前の研究は、たとえ単純な算術を訓練しても、モデルが初期化やハイパーパラメータに依存する様々なアルゴリズム(時には同時に)を実装できることを示していた。
これは、ニューロンレベルの解釈可能性技術が適用性に制限があることを意味するか?
高次元ニューラルネットワークはトレーニングデータの低次元表現を学習することができると我々は主張する。
このような表現は、機械的解釈可能性レンズを通して理解することができ、驚くほど人間由来のドメイン知識に忠実な洞察を提供する。
このことは、解釈可能性に対するそのようなアプローチが、問題を解決するために訓練されたモデルから問題に対する新しい理解を導き出すのに有用であることを示している。
そこで本研究では,核データを再現する訓練モデルを用いて,核物理学の概念を抽出する。
関連論文リスト
- Automated Natural Language Explanation of Deep Visual Neurons with Large
Models [43.178568768100305]
本稿では,大きな基礎モデルを持つニューロンの意味的説明を生成するための,新しいポストホックフレームワークを提案する。
我々のフレームワークは、様々なモデルアーキテクチャやデータセット、自動化されたスケーラブルなニューロン解釈と互換性があるように設計されています。
論文 参考訳(メタデータ) (2023-10-16T17:04:51Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Utility-Probability Duality of Neural Networks [4.871730595406078]
本稿では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティに基づく代替的説明を提案する。
基本的な考え方は、学習したニューラルネットワークを確率モデルではなく、順序付きユーティリティ関数として解釈することである。
ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値のSGD学習ダイナミクスを反復過程と見なすことができる。
論文 参考訳(メタデータ) (2023-05-24T08:09:07Z) - On Modifying a Neural Network's Perception [3.42658286826597]
本研究では,人間の定義した概念に対して,人工ニューラルネットワークが知覚しているものを修正する手法を提案する。
提案手法を異なるモデルで検証し、実行された操作がモデルによって適切に解釈されているかどうかを評価し、それらに対してどのように反応するかを解析する。
論文 参考訳(メタデータ) (2023-03-05T12:09:37Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Explainable artificial intelligence for mechanics: physics-informing
neural networks for constitutive models [0.0]
メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。
本論文では,機械データに訓練されたニューラルネットワークを後述する物理形成型アプローチへの第一歩を提案する。
これにより、主成分分析はRNNの細胞状態における分散表現をデコレーションし、既知の基本関数との比較を可能にする。
論文 参考訳(メタデータ) (2021-04-20T18:38:52Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Bayesian Neural Networks [0.0]
ニューラルネットワークによる予測におけるエラーを原理的に得る方法を示し、これらのエラーを特徴付ける2つの方法を提案する。
さらに、これらの2つのメソッドが実際に実施される際に、重大な落とし穴を持つ方法についても説明します。
論文 参考訳(メタデータ) (2020-06-02T09:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。