論文の概要: Toward Transparent AI: A Survey on Interpreting the Inner Structures of
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2207.13243v6
- Date: Fri, 18 Aug 2023 21:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 02:55:47.348214
- Title: Toward Transparent AI: A Survey on Interpreting the Inner Structures of
Deep Neural Networks
- Title(参考訳): 透明AIに向けて:ディープニューラルネットワークの内部構造を解釈する調査
- Authors: Tilman R\"auker, Anson Ho, Stephen Casper, Dylan Hadfield-Menell
- Abstract要約: インナー・インタープリタビリティ・ツールに焦点をあてて300を超える研究をレビューする。
そこで我々は,ネットワークのどの部分で説明できるかによって,メソッドを分類する分類法を提案する。
我々は、解釈可能性研究における現状は、主に非生産的であると論じる。
- 参考スコア(独自算出の注目度): 8.445831718854153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last decade of machine learning has seen drastic increases in scale and
capabilities. Deep neural networks (DNNs) are increasingly being deployed in
the real world. However, they are difficult to analyze, raising concerns about
using them without a rigorous understanding of how they function. Effective
tools for interpreting them will be important for building more trustworthy AI
by helping to identify problems, fix bugs, and improve basic understanding. In
particular, "inner" interpretability techniques, which focus on explaining the
internal components of DNNs, are well-suited for developing a mechanistic
understanding, guiding manual modifications, and reverse engineering solutions.
Much recent work has focused on DNN interpretability, and rapid progress has
thus far made a thorough systematization of methods difficult. In this survey,
we review over 300 works with a focus on inner interpretability tools. We
introduce a taxonomy that classifies methods by what part of the network they
help to explain (weights, neurons, subnetworks, or latent representations) and
whether they are implemented during (intrinsic) or after (post hoc) training.
To our knowledge, we are also the first to survey a number of connections
between interpretability research and work in adversarial robustness, continual
learning, modularity, network compression, and studying the human visual
system. We discuss key challenges and argue that the status quo in
interpretability research is largely unproductive. Finally, we highlight the
importance of future work that emphasizes diagnostics, debugging, adversaries,
and benchmarking in order to make interpretability tools more useful to
engineers in practical applications.
- Abstract(参考訳): 機械学習の過去10年間は、規模と能力が大幅に増加した。
ディープニューラルネットワーク(DNN)は、ますます現実世界に展開されている。
しかし、それらは分析が難しく、どのように機能するかを厳密に理解することなく、それらを使うことについての懸念を提起する。
問題を識別し、バグを修正し、基本的な理解を改善することで、より信頼できるAIを構築する上で、それらを解釈するための効果的なツールが重要だ。
特に、DNNの内部コンポーネントを説明することに焦点を当てた"インナー"解釈可能性技術は、機械的理解、手動修正の指導、リバースエンジニアリングソリューションの開発に適している。
最近の研究はDNNの解釈可能性に重点を置いており、急速な進歩はメソッドの徹底的な体系化を困難にしている。
本調査では,300以上の研究を内的解釈可能性ツールに焦点をあててレビューする。
本稿では,ネットワークのどの部分(重み,ニューロン,サブネットワーク,潜在表現)を説明し,それが(イントリンシック)トレーニング中あるいは後(hoc後)に実施されているかを分類する分類法を提案する。
我々の知る限り、私たちは、解釈可能性の研究と、対向的堅牢性、連続学習、モジュール性、ネットワーク圧縮、人間の視覚システムの研究との間の多くの関係を調査した最初の人物です。
我々は、重要な課題について議論し、解釈可能性研究における現状は、主に非生産的であると論じる。
最後に、実用的なアプリケーションのエンジニアにとって、解釈可能性ツールをより便利にするために、診断、デバッグ、敵、ベンチマークを強調する将来の作業の重要性を強調します。
関連論文リスト
- Data Science Principles for Interpretable and Explainable AI [0.7581664835990121]
解釈可能でインタラクティブな機械学習は、複雑なモデルをより透明で制御しやすいものにすることを目的としている。
本論は, この分野における文献の発達から重要な原則を合成するものである。
論文 参考訳(メタデータ) (2024-05-17T05:32:27Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Towards Benchmarking Explainable Artificial Intelligence Methods [0.0]
我々は、ニューラルネットワークによって推進される決定を説明する方法から、科学理論の哲学を、期待できるもの、期待できないものを明らかにすることを目的として分析レンズとして利用する。
ケーススタディにより、動物とヘッドギアの2つの常在領域における説明可能性法の性能の選択について検討した。
これらの手法の有用性は、人間のドメイン知識と、理解し、一般化し、理性に頼っている、と私たちはうなずく。
論文 参考訳(メタデータ) (2022-08-25T14:28:30Z) - Explainability via Interactivity? Supporting Nonexperts' Sensemaking of
Pretrained CNN by Interacting with Their Daily Surroundings [7.455054065013047]
我々は,CNN(Convolutional Neural Networks)を対話的に理解するための非専門家を支援するモバイルアプリケーションを提案する。
ユーザーは周囲のオブジェクトの写真を撮ることで、事前訓練されたCNNで遊べる。
モデルの決定を直感的に視覚化するために、最新のXAI技術(Class Activation Map)を使用します。
論文 参考訳(メタデータ) (2021-05-31T19:22:53Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - A Survey on Understanding, Visualizations, and Explanation of Deep
Neural Networks [0.0]
理解し、信頼し、一言で言えば、ディープモデルの決定の背後にある議論を「説明」することが最重要である。
多くのアプリケーションにおいて、人工ニューラルネットワーク(DNNを含む)はブラックボックスシステムと見なされており、内部処理動作に関する十分な手がかりを提供していない。
論文 参考訳(メタデータ) (2021-02-02T22:57:22Z) - i-Algebra: Towards Interactive Interpretability of Deep Neural Networks [41.13047686374529]
i-Algebraはディープニューラルネットワーク(DNN)を解釈するための対話型フレームワークである。
その中核は原子、構成可能な演算子のライブラリであり、さまざまな入力粒度、異なる推論段階、および異なる解釈の視点からモデル挙動を説明する。
我々は,敵入力の検査,モデル不整合の解消,汚染データのクリーン化など,一連の代表的分析タスクでユーザ研究を行い,その有望なユーザビリティを示す。
論文 参考訳(メタデータ) (2021-01-22T19:22:57Z) - Explainability in Deep Reinforcement Learning [68.8204255655161]
説明可能な強化学習(XRL)の実現に向けての最近の成果を概観する。
エージェントの振る舞いを正当化し、説明することが不可欠である重要な状況において、RLモデルのより良い説明可能性と解釈性は、まだブラックボックスと見なされているものの内部動作に関する科学的洞察を得るのに役立つ。
論文 参考訳(メタデータ) (2020-08-15T10:11:42Z) - Boosting Deep Neural Networks with Geometrical Prior Knowledge: A Survey [77.99182201815763]
ディープニューラルネットワーク(DNN)は多くの異なる問題設定において最先端の結果を達成する。
DNNはしばしばブラックボックスシステムとして扱われ、評価と検証が複雑になる。
コンピュータビジョンタスクにおける畳み込みニューラルネットワーク(CNN)の成功に触発された、有望な分野のひとつは、対称幾何学的変換に関する知識を取り入れることである。
論文 参考訳(メタデータ) (2020-06-30T14:56:05Z) - Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike
Common Sense [142.53911271465344]
我々は、次世代のAIは、新しいタスクを解決するために、人間のような「暗黒」の常識を取り入れなければならないと論じている。
我々は、人間のような常識を持つ認知AIの5つの中核領域として、機能、物理学、意図、因果性、実用性(FPICU)を識別する。
論文 参考訳(メタデータ) (2020-04-20T04:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。