論文の概要: Towards falsifiable interpretability research
- arxiv url: http://arxiv.org/abs/2010.12016v1
- Date: Thu, 22 Oct 2020 22:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:47:02.086301
- Title: Towards falsifiable interpretability research
- Title(参考訳): 解釈可能性研究に向けて
- Authors: Matthew L. Leavitt, Ari Morcos
- Abstract要約: 我々は、解釈可能性の研究は直観に基づくアプローチへの過度な依存に悩まされていると論じる。
本稿では,解釈可能性手法の2つの一般的なクラスについて検討する。
本稿では,これらの障害に対処する戦略を,強虚な解釈可能性研究のための枠組みとして提案する。
- 参考スコア(独自算出の注目度): 7.360807642941714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for understanding the decisions of and mechanisms underlying deep
neural networks (DNNs) typically rely on building intuition by emphasizing
sensory or semantic features of individual examples. For instance, methods aim
to visualize the components of an input which are "important" to a network's
decision, or to measure the semantic properties of single neurons. Here, we
argue that interpretability research suffers from an over-reliance on
intuition-based approaches that risk-and in some cases have caused-illusory
progress and misleading conclusions. We identify a set of limitations that we
argue impede meaningful progress in interpretability research, and examine two
popular classes of interpretability methods-saliency and single-neuron-based
approaches-that serve as case studies for how overreliance on intuition and
lack of falsifiability can undermine interpretability research. To address
these concerns, we propose a strategy to address these impediments in the form
of a framework for strongly falsifiable interpretability research. We encourage
researchers to use their intuitions as a starting point to develop and test
clear, falsifiable hypotheses, and hope that our framework yields robust,
evidence-based interpretability methods that generate meaningful advances in
our understanding of DNNs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の根底にある決定とメカニズムを理解する方法は通常、個々の例の感覚的特徴や意味的特徴を強調することによって直感を構築することに依存する。
例えば、ネットワークの決定に「重要」な入力の構成要素を視覚化することや、単一ニューロンのセマンティックな特性を測定することを目的としている。
ここでは, 解釈可能性研究は, 直観に基づくアプローチに過度に依存しており, 場合によっては, 説明的な進歩や誤解を招く結論に陥っていると論じる。
我々は、解釈可能性研究において有意義な進歩を阻害すると考えられる一連の制限を特定し、解釈可能性研究を損なう可能性の過度さと単一ニューロンに基づくアプローチの2つの一般的なクラスについて検討する。
これらの懸念に対処するために,我々は,解釈可能性研究の枠組みとして,これらの障害に対処するための戦略を提案する。
研究者たちは、その直感を出発点として、明確で偽造可能な仮説を開発し、検証し、我々のフレームワークが、dnnの理解に有意義な進歩をもたらす、堅牢で証拠に基づく解釈可能性の方法をもたらすことを期待しています。
関連論文リスト
- Statistical tuning of artificial neural network [0.0]
本研究では、ニューラルネットワークの理解を強化する方法を紹介し、特に1つの隠蔽層を持つモデルに焦点を当てる。
本稿では,入力ニューロンの意義を統計的に評価し,次元減少のためのアルゴリズムを提案する。
この研究は、ニューラルネットワークを解釈するための堅牢な統計フレームワークを提示することにより、説明可能な人工知能の分野を前進させる。
論文 参考訳(メタデータ) (2024-09-24T19:47:03Z) - Independence Constrained Disentangled Representation Learning from Epistemological Perspective [13.51102815877287]
Disentangled Representation Learningは、データ生成プロセスにおいて意味論的に意味のある潜伏変数を識別するデータエンコーダをトレーニングすることで、ディープラーニングメソッドの説明可能性を向上させることを目的としている。
不整合表現学習の目的については合意が得られない。
本稿では,相互情報制約と独立性制約を統合した非絡み合い表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:00:59Z) - The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms [3.3653074379567096]
機械的解釈可能性(MI)は、大きな言語モデルのような基礎モデルによって学習された特徴と暗黙のアルゴリズムを研究する別の研究領域として登場した。
我々は、20世紀の心理学における「認知革命」を反映した深層学習解釈の移行を促進するために、現在の手法が熟していると論じる。
計算神経科学におけるキーパラレルを反映した分類法を提案し,MI研究の2つの幅広いカテゴリについて述べる。
論文 参考訳(メタデータ) (2024-08-11T20:50:16Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Robust Explainability: A Tutorial on Gradient-Based Attribution Methods
for Deep Neural Networks [1.5854438418597576]
本稿では、ディープニューラルネットワークの決定を説明するための勾配に基づく解釈可能性法を提案する。
敵の頑健さが意味のある説明を持つ上で果たす役割について論じる。
我々は、堅牢性と説明可能性の収束における研究の今後の方向性を結論づける。
論文 参考訳(メタデータ) (2021-07-23T18:06:29Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Adversarial Examples on Object Recognition: A Comprehensive Survey [1.976652238476722]
深層ニューラルネットワークは、機械学習研究の最前線にある。
敵の例は、ネットワークの分散ドリフトに対する感度をテストするために意図的に設計されています。
ニューラルネットワークの安全性,安全性,堅牢性に対する敵の例の影響について論じる。
論文 参考訳(メタデータ) (2020-08-07T08:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。