論文の概要: A Comprehensive Survey on Self-Interpretable Neural Networks
- arxiv url: http://arxiv.org/abs/2501.15638v1
- Date: Sun, 26 Jan 2025 18:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:45.942289
- Title: A Comprehensive Survey on Self-Interpretable Neural Networks
- Title(参考訳): 自己解釈型ニューラルネットワークに関する総合的研究
- Authors: Yang Ji, Ying Sun, Yuting Zhang, Zhigaoyuan Wang, Yuanxin Zhuang, Zheng Gong, Dazhong Shen, Chuan Qin, Hengshu Zhu, Hui Xiong,
- Abstract要約: 自己解釈型ニューラルネットワークは、本質的にモデル構造を通して予測合理的性を明らかにする。
まず、自己解釈型ニューラルネットワークに関する既存の研究を収集、レビューし、その方法論を構造化した概要を提供する。
また、モデル説明の具体的、可視化された例を示し、その適用性について様々なシナリオで論じる。
- 参考スコア(独自算出の注目度): 36.0575431131253
- License:
- Abstract: Neural networks have achieved remarkable success across various fields. However, the lack of interpretability limits their practical use, particularly in critical decision-making scenarios. Post-hoc interpretability, which provides explanations for pre-trained models, is often at risk of robustness and fidelity. This has inspired a rising interest in self-interpretable neural networks, which inherently reveal the prediction rationale through the model structures. Although there exist surveys on post-hoc interpretability, a comprehensive and systematic survey of self-interpretable neural networks is still missing. To address this gap, we first collect and review existing works on self-interpretable neural networks and provide a structured summary of their methodologies from five key perspectives: attribution-based, function-based, concept-based, prototype-based, and rule-based self-interpretation. We also present concrete, visualized examples of model explanations and discuss their applicability across diverse scenarios, including image, text, graph data, and deep reinforcement learning. Additionally, we summarize existing evaluation metrics for self-interpretability and identify open challenges in this field, offering insights for future research. To support ongoing developments, we present a publicly accessible resource to track advancements in this domain: https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network.
- Abstract(参考訳): ニューラルネットワークは様々な分野において顕著な成功を収めた。
しかし、解釈可能性の欠如は、特に重要な意思決定シナリオにおいて、実践的使用を制限する。
事前訓練されたモデルの説明を提供するポストホック解釈可能性は、しばしば堅牢性と忠実さのリスクがある。
これは自己解釈型ニューラルネットワークへの関心が高まり、モデル構造を通して予測の合理性を本質的に明らかにしている。
ポストホック解釈可能性に関する調査は存在するが、自己解釈型ニューラルネットワークに関する包括的で体系的な調査はいまだに欠けている。
このギャップに対処するために、我々はまず、自己解釈型ニューラルネットワークに関する既存の研究を収集、レビューし、その方法論を属性ベース、関数ベース、コンセプトベース、プロトタイプベース、ルールベースの自己解釈という5つの重要な視点から構造化した概要を提供する。
また, モデル説明の具体的, 可視化された例を示し, 画像, テキスト, グラフデータ, 深層強化学習など多種多様なシナリオに適用可能性について論じる。
さらに、自己解釈可能性に関する既存の評価指標を要約し、この分野におけるオープンな課題を特定し、今後の研究の洞察を提供する。
進行中の開発をサポートするため、この領域の進展を追跡するために、 https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network.com という公開リソースを提示する。
関連論文リスト
- Explaining Deep Neural Networks by Leveraging Intrinsic Methods [0.9790236766474201]
この論文はeXplainable AIの分野に貢献し、ディープニューラルネットワークの解釈可能性の向上に重点を置いている。
中心となる貢献は、これらのネットワークをより解釈しやすくすることを目的とした新しい技術の導入である。
第2に、この研究は、訓練された深層ニューラルネットワーク内のニューロンに関する新しい研究を掘り下げ、その活性化値に関連する見過ごされた現象に光を当てた。
論文 参考訳(メタデータ) (2024-07-17T01:20:17Z) - What Do Deep Saliency Models Learn about Visual Attention? [28.023464783469738]
本稿では,サリエンシモデルによって学習された暗黙的特徴に光を当てる新しい分析フレームワークを提案する。
提案手法では,これらの暗黙的特徴を意味的属性に明示的に一致した解釈可能なベースに分解する。
論文 参考訳(メタデータ) (2023-10-14T23:15:57Z) - NxPlain: Web-based Tool for Discovery of Latent Concepts [16.446370662629555]
提案するNxPlainは,潜在概念を用いたモデル予測を記述したWebアプリケーションである。
NxPlainは、深いNLPモデルで学んだ潜在概念を発見し、モデルで学んだ知識の解釈を提供し、使用した概念に基づいてその予測を説明する。
論文 参考訳(メタデータ) (2023-03-06T10:45:24Z) - Mapping Knowledge Representations to Concepts: A Review and New
Perspectives [0.6875312133832078]
本論は、内部表現と人間の理解可能な概念を関連付けることを目的とした研究に焦点をあてる。
この分類学と因果関係の理論は、ニューラルネットワークの説明から期待できるもの、期待できないものを理解するのに有用である。
この分析は、モデル説明可能性の目標に関するレビューされた文献の曖昧さも明らかにしている。
論文 参考訳(メタデータ) (2022-12-31T12:56:12Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Interpretable part-whole hierarchies and conceptual-semantic
relationships in neural networks [4.153804257347222]
本稿では、視覚的手がかりから部分全体階層を表現できるフレームワークであるAgglomeratorについて述べる。
本研究では,SmallNORB,MNIST,FashionMNIST,CIFAR-10,CIFAR-100などの共通データセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-03-07T10:56:13Z) - Interpretable Social Anchors for Human Trajectory Forecasting in Crowds [84.20437268671733]
本研究では,人混みの軌跡を予測できるニューラルネットワークシステムを提案する。
解釈可能なルールベースのインテントを学び、ニューラルネットワークの表現可能性を利用してシーン固有の残差をモデル化する。
私たちのアーキテクチャは、インタラクション中心のベンチマークTrajNet++でテストされています。
論文 参考訳(メタデータ) (2021-05-07T09:22:34Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Explainable Adversarial Attacks in Deep Neural Networks Using Activation
Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。
これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文 参考訳(メタデータ) (2021-03-18T13:04:21Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。