論文の概要: Towards falsifiable interpretability research
- arxiv url: http://arxiv.org/abs/2010.12016v1
- Date: Thu, 22 Oct 2020 22:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 04:47:02.086301
- Title: Towards falsifiable interpretability research
- Title(参考訳): 解釈可能性研究に向けて
- Authors: Matthew L. Leavitt, Ari Morcos
- Abstract要約: 我々は、解釈可能性の研究は直観に基づくアプローチへの過度な依存に悩まされていると論じる。
本稿では,解釈可能性手法の2つの一般的なクラスについて検討する。
本稿では,これらの障害に対処する戦略を,強虚な解釈可能性研究のための枠組みとして提案する。
- 参考スコア(独自算出の注目度): 7.360807642941714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for understanding the decisions of and mechanisms underlying deep
neural networks (DNNs) typically rely on building intuition by emphasizing
sensory or semantic features of individual examples. For instance, methods aim
to visualize the components of an input which are "important" to a network's
decision, or to measure the semantic properties of single neurons. Here, we
argue that interpretability research suffers from an over-reliance on
intuition-based approaches that risk-and in some cases have caused-illusory
progress and misleading conclusions. We identify a set of limitations that we
argue impede meaningful progress in interpretability research, and examine two
popular classes of interpretability methods-saliency and single-neuron-based
approaches-that serve as case studies for how overreliance on intuition and
lack of falsifiability can undermine interpretability research. To address
these concerns, we propose a strategy to address these impediments in the form
of a framework for strongly falsifiable interpretability research. We encourage
researchers to use their intuitions as a starting point to develop and test
clear, falsifiable hypotheses, and hope that our framework yields robust,
evidence-based interpretability methods that generate meaningful advances in
our understanding of DNNs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の根底にある決定とメカニズムを理解する方法は通常、個々の例の感覚的特徴や意味的特徴を強調することによって直感を構築することに依存する。
例えば、ネットワークの決定に「重要」な入力の構成要素を視覚化することや、単一ニューロンのセマンティックな特性を測定することを目的としている。
ここでは, 解釈可能性研究は, 直観に基づくアプローチに過度に依存しており, 場合によっては, 説明的な進歩や誤解を招く結論に陥っていると論じる。
我々は、解釈可能性研究において有意義な進歩を阻害すると考えられる一連の制限を特定し、解釈可能性研究を損なう可能性の過度さと単一ニューロンに基づくアプローチの2つの一般的なクラスについて検討する。
これらの懸念に対処するために,我々は,解釈可能性研究の枠組みとして,これらの障害に対処するための戦略を提案する。
研究者たちは、その直感を出発点として、明確で偽造可能な仮説を開発し、検証し、我々のフレームワークが、dnnの理解に有意義な進歩をもたらす、堅牢で証拠に基づく解釈可能性の方法をもたらすことを期待しています。
関連論文リスト
- A Survey on Transferability of Adversarial Examples across Deep Neural
Networks [54.47263618782188]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性によって"ブラックボックス"攻撃が可能になり、ターゲットモデルの詳細な知識の必要性を回避することができる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Adversarial Attacks on the Interpretation of Neuron Activation
Maximization [70.5472799454224]
アクティベーション最大化アプローチは、訓練されたディープラーニングモデルの解釈と解析に使用される。
本研究では,解釈を欺くためにモデルを操作する敵の概念を考察する。
論文 参考訳(メタデータ) (2023-06-12T19:54:33Z) - Not All Neuro-Symbolic Concepts Are Created Equal: Analysis and
Mitigation of Reasoning Shortcuts [24.390922632057627]
Neuro-Symbolic(NeSy)予測モデルは、与えられた制約に対するコンプライアンスの改善を約束する。
サブシンボリック入力から抽出された高レベルな概念を推論することで、いくつかの先行知識と整合したラベルを推論することができる。
精度は高いが、意図しないセマンティクスで概念を活用すれば、約束された利点を欠くことになる。
論文 参考訳(メタデータ) (2023-05-31T15:35:48Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Robust Explainability: A Tutorial on Gradient-Based Attribution Methods
for Deep Neural Networks [1.5854438418597576]
本稿では、ディープニューラルネットワークの決定を説明するための勾配に基づく解釈可能性法を提案する。
敵の頑健さが意味のある説明を持つ上で果たす役割について論じる。
我々は、堅牢性と説明可能性の収束における研究の今後の方向性を結論づける。
論文 参考訳(メタデータ) (2021-07-23T18:06:29Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - i-Algebra: Towards Interactive Interpretability of Deep Neural Networks [41.13047686374529]
i-Algebraはディープニューラルネットワーク(DNN)を解釈するための対話型フレームワークである。
その中核は原子、構成可能な演算子のライブラリであり、さまざまな入力粒度、異なる推論段階、および異なる解釈の視点からモデル挙動を説明する。
我々は,敵入力の検査,モデル不整合の解消,汚染データのクリーン化など,一連の代表的分析タスクでユーザ研究を行い,その有望なユーザビリティを示す。
論文 参考訳(メタデータ) (2021-01-22T19:22:57Z) - Recent Advances in Understanding Adversarial Robustness of Deep Neural
Networks [15.217367754000913]
敵の例に抵抗する高い堅牢性を持つモデルを得ることがますます重要である。
我々は、敵の攻撃と堅牢性について、予備的な定義を与える。
我々は、頻繁に使用されるベンチマークについて研究し、理論的に証明された敵の堅牢性の境界について言及する。
論文 参考訳(メタデータ) (2020-11-03T07:42:53Z) - Adversarial Examples on Object Recognition: A Comprehensive Survey [1.976652238476722]
深層ニューラルネットワークは、機械学習研究の最前線にある。
敵の例は、ネットワークの分散ドリフトに対する感度をテストするために意図的に設計されています。
ニューラルネットワークの安全性,安全性,堅牢性に対する敵の例の影響について論じる。
論文 参考訳(メタデータ) (2020-08-07T08:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。