論文の概要: Don't trust your eyes: on the (un)reliability of feature visualizations
- arxiv url: http://arxiv.org/abs/2306.04719v6
- Date: Thu, 6 Jun 2024 18:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 23:04:47.956573
- Title: Don't trust your eyes: on the (un)reliability of feature visualizations
- Title(参考訳): 視線を信じないで - 機能の可視化の信頼性について
- Authors: Robert Geirhos, Roland S. Zimmermann, Blair Bilodeau, Wieland Brendel, Been Kim,
- Abstract要約: 自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために、特徴視覚化をトリックする方法を示す。
次に、標準の無人ネットワークで同様の現象が起こる証拠を提供する。
これは機能ビジュアライゼーションの正当性チェックとして使用できる。
- 参考スコア(独自算出の注目度): 25.018840023636546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do neural networks extract patterns from pixels? Feature visualizations attempt to answer this important question by visualizing highly activating patterns through optimization. Today, visualization methods form the foundation of our knowledge about the internal workings of neural networks, as a type of mechanistic interpretability. Here we ask: How reliable are feature visualizations? We start our investigation by developing network circuits that trick feature visualizations into showing arbitrary patterns that are completely disconnected from normal network behavior on natural input. We then provide evidence for a similar phenomenon occurring in standard, unmanipulated networks: feature visualizations are processed very differently from standard input, casting doubt on their ability to "explain" how neural networks process natural images. This can be used as a sanity check for feature visualizations. We underpin our empirical findings by theory proving that the set of functions that can be reliably understood by feature visualization is extremely small and does not include general black-box neural networks. Therefore, a promising way forward could be the development of networks that enforce certain structures in order to ensure more reliable feature visualizations.
- Abstract(参考訳): ニューラルネットワークはどのようにピクセルからパターンを抽出するか?
特徴視覚化は、最適化を通じて高度に活性化されたパターンを可視化することによって、この重要な質問に答えようとしている。
今日では、可視化手法が、機械的解釈可能性の一種として、ニューラルネットワークの内部動作に関する私たちの知識の基礎を形成しています。
機能ビジュアライゼーションはどの程度信頼できるのか?
我々は,自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために,特徴可視化を騙すネットワーク回路の開発に着手する。
特徴視覚化は標準入力とは全く異なる処理を受けており、ニューラルネットワークが自然言語をどのように処理するかを「説明」する能力に疑問を呈している。
これは機能ビジュアライゼーションの正当性チェックとして使用できる。
特徴視覚化によって確実に理解できる関数の集合は極めて小さく、一般的なブラックボックスニューラルネットワークを含まないことを証明して、経験的知見を裏付ける。
そのため、より信頼性の高い特徴視覚化を実現するために、特定の構造を強制するネットワークの開発が期待できる。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Visualizing Neural Network Imagination [2.1749194587826026]
ある状況では、ニューラルネットワークは、隠れたアクティベーションの環境状態を表現します。
私たちのゴールは、ネットワークが表現している環境を可視化することです。
定量的解釈可能性尺度を定義し、隠れた状態が高度に解釈可能であることを示す。
論文 参考訳(メタデータ) (2024-05-10T11:43:35Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Topological Understanding of Neural Networks, a survey [0.0]
一般にブラックボックスとして扱われるニューラルネットワークの内部構造を考察する。
我々は、異なるアクティベーション関数、それらに関連するネットワークアーキテクチャの種類、およびいくつかの経験的データの重要性についてレビューする。
論文 参考訳(メタデータ) (2023-01-23T22:11:37Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Expressive Explanations of DNNs by Combining Concept Analysis with ILP [0.3867363075280543]
我々は,dnn(feed-forward convolutional deep neural network)の理論的根拠をグローバル,表現的,言語的に説明するために,ネットワークが学習した本質的特徴を用いた。
我々の説明は元々のブラックボックスモデルに忠実であることを示している。
論文 参考訳(メタデータ) (2021-05-16T07:00:27Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Visual Pattern Recognition with on On-chip Learning: towards a Fully
Neuromorphic Approach [10.181725314550823]
ニューロモルフィックハードウェア上でのオンチップ学習による視覚パターン認識のためのスパイキングニューラルネットワーク(SNN)を提案する。
このネットワークは、ダイナミック・ビジョン・センサーによって知覚される水平と垂直のバーからなる単純な視覚パターンを学習することができることを示す。
認識中、ネットワークはパターンのアイデンティティを分類し、同時にその位置とスケールを推定する。
論文 参考訳(メタデータ) (2020-08-08T08:07:36Z) - Teaching CNNs to mimic Human Visual Cognitive Process & regularise
Texture-Shape bias [18.003188982585737]
コンピュータビジョンにおける最近の実験は、畳み込みニューラルネットワーク(CNN)を用いたモデルにおいて、テクスチャバイアスが最高の結果の主因であることを実証している。
コスト関数は、CNNが欲張りなアプローチを採り、テクスチャのような局所的な情報に対する生産性を向上させ、その結果、グローバルな統計を探索することができないと信じられている。
画像の再構成と分類に形状,テクスチャ,エッジなどの人間の解釈可能な特徴を活用するために,心理学における特徴統合理論から着想を得た,新しい直感的なアーキテクチャであるCognitiveCNNを提案する。
論文 参考訳(メタデータ) (2020-06-25T22:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。