論文の概要: Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond
- arxiv url: http://arxiv.org/abs/2103.10689v1
- Date: Fri, 19 Mar 2021 08:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:29:08.362413
- Title: Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond
- Title(参考訳): 解釈可能な深層学習:解釈、解釈可能性、信頼性など
- Authors: Xuhong Li, Haoyi Xiong, Xingjian Li, Xuanyu Wu, Xiao Zhang, Ji Liu,
Jiang Bian, Dejing Dou
- Abstract要約: 一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
- 参考スコア(独自算出の注目度): 49.93153180169685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have been well-known for their superb performance in
handling various machine learning and artificial intelligence tasks. However,
due to their over-parameterized black-box nature, it is often difficult to
understand the prediction results of deep models. In recent years, many
interpretation tools have been proposed to explain or reveal the ways that deep
models make decisions. In this paper, we review this line of research and try
to make a comprehensive survey. Specifically, we introduce and clarify two
basic concepts-interpretations and interpretability-that people usually get
confused. First of all, to address the research efforts in interpretations, we
elaborate the design of several recent interpretation algorithms, from
different perspectives, through proposing a new taxonomy. Then, to understand
the results of interpretation, we also survey the performance metrics for
evaluating interpretation algorithms. Further, we summarize the existing work
in evaluating models' interpretability using "trustworthy" interpretation
algorithms. Finally, we review and discuss the connections between deep models'
interpretations and other factors, such as adversarial robustness and data
augmentations, and we introduce several open-source libraries for
interpretation algorithms and evaluation approaches.
- Abstract(参考訳): ディープニューラルネットワークは、さまざまな機械学習や人工知能タスクを扱う上で、非常に優れたパフォーマンスで知られている。
しかしながら、その過度にパラメータ化されたブラックボックスの性質から、深層モデルの予測結果を理解することはしばしば困難である。
近年,深層モデルによる意思決定の方法を説明する,あるいは明らかにするための解釈ツールが数多く提案されている。
本稿では,本研究を概観し,総合的な調査を行う。
具体的には、人々が混乱する2つの基本的な概念、解釈と解釈可能性を紹介し、明らかにする。
まず、解釈における研究の取り組みに対処するために、異なる観点から、新しい分類法を提案することによって、いくつかの最近の解釈アルゴリズムの設計を精査する。
そして,解釈結果を理解するために,解釈アルゴリズムを評価するための性能指標についても検討する。
さらに,「信頼できる」解釈アルゴリズムを用いてモデルの解釈可能性を評価する既存の研究を概説する。
最後に,深層モデルの解釈と,逆ロバスト性やデータ拡張といった他の要因との関係を考察し,解釈アルゴリズムや評価アプローチのためのオープンソースライブラリをいくつか紹介する。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - FICNN: A Framework for the Interpretation of Deep Convolutional Neural
Networks [0.0]
本研究の目的は,視覚データから学習したCNNモデルを対象とした解釈手法の研究のためのフレームワークを提案することである。
提案する要因のごく一部と組み合わせが実際に研究されていることを,我々のフレームワークが強調する。
論文 参考訳(メタデータ) (2023-05-17T10:59:55Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Local Interpretations for Explainable Natural Language Processing: A Survey [5.717407321642629]
本研究では,自然言語処理(NLP)タスクにおけるディープニューラルネットワークの解釈可能性を改善するための様々な手法について検討する。
本研究のはじめに,解釈可能性という用語の定義とその諸側面について,包括的に議論する。
論文 参考訳(メタデータ) (2021-03-20T02:28:33Z) - A Survey on Neural Network Interpretability [25.27545364222555]
解釈性は、深層ネットワークが他の研究分野で強力なツールになるのに望ましい特性である。
本研究では,エンゲージメントのタイプ(パッシブ対アクティブ解釈アプローチ),説明のタイプ,焦点の3次元に整理した新しい分類法を提案する。
論文 参考訳(メタデータ) (2020-12-28T15:09:50Z) - Are Interpretations Fairly Evaluated? A Definition Driven Pipeline for
Post-Hoc Interpretability [54.85658598523915]
我々は,解釈の忠実性を評価する前に,解釈を明確に定義することを提案する。
解釈手法は,ある評価基準の下で異なる性能を示すが,その差は解釈の品質や忠実さから生じるものではない。
論文 参考訳(メタデータ) (2020-09-16T06:38:03Z) - Ontology-based Interpretable Machine Learning for Textual Data [35.01650633374998]
本稿では,予測モデルを説明するためのサンプリング手法に基づいて,解釈可能なモデルを学習する新しい解釈フレームワークを提案する。
説明のために探索空間を狭めるために,学習可能なアンカーアルゴリズムを設計する。
さらに、学習された解釈可能な表現とアンカーを組み合わせることで、理解可能な説明を生成する一連の規則が導入された。
論文 参考訳(メタデータ) (2020-04-01T02:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。