論文の概要: Benchmarking Interpretability Tools for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2302.10894v1
- Date: Wed, 8 Feb 2023 02:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:50:00.434023
- Title: Benchmarking Interpretability Tools for Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークのためのベンチマーク解釈ツール
- Authors: Stephen Casper, Yuxiao Li, Jiawei Li, Tong Bu, Kevin Zhang, Dylan
Hadfield-Menell
- Abstract要約: この論文は、ベンチマークがAIの進歩をどのように導くかにインスパイアされている。
まず,工学関連洞察を生成する上で,解釈可能性ツールがいかに有用かを評価するためのベンチマークタスクとしてトロヤニーを提案する。
第3に,16種類の特徴帰属/相性評価法と9種類の特徴合成法について評価した。
- 参考スコア(独自算出の注目度): 7.118597202627652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpreting deep neural networks is the topic of much current research in
AI. However, few interpretability techniques have shown to be competitive tools
in practical applications. Inspired by how benchmarks tend to guide progress in
AI, we make three contributions. First, we propose trojan rediscovery as a
benchmarking task to evaluate how useful interpretability tools are for
generating engineering-relevant insights. Second, we design two such approaches
for benchmarking: one for feature attribution methods and one for feature
synthesis methods. Third, we apply our benchmarks to evaluate 16 feature
attribution/saliency methods and 9 feature synthesis methods. This approach
finds large differences in the capabilities of these existing tools and shows
significant room for improvement. Finally, we propose several directions for
future work. Resources are available at
https://github.com/thestephencasper/benchmarking_interpretability
- Abstract(参考訳): ディープニューラルネットワークの解釈は、AIにおける現在の研究のトピックである。
しかし、実用的な応用において競争力のあるツールであることが示されている解釈可能性技術はほとんどない。
ベンチマークがAIの進歩を導く傾向に触発されて、私たちは3つのコントリビューションを行います。
まず,工学関連洞察を生成する上で,解釈可能性ツールがいかに有用かを評価するためのベンチマークタスクとしてトロイの木馬再発見を提案する。
第2に,ベンチマーク手法として,特徴帰属法と特徴合成法という2つの手法を設計した。
第3に,16の特徴帰属/保証法と9つの特徴合成法の評価にベンチマークを適用した。
このアプローチは、これらの既存のツールの能力に大きな違いがあり、改善の余地があります。
最後に,今後の課題に向けて,いくつかの方向性を提案する。
リソースはhttps://github.com/thestephencasper/benchmarking_interpretabilityで入手できる。
関連論文リスト
- Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。
モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。
この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文 参考訳(メタデータ) (2023-11-07T16:31:56Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - Where Does My Model Underperform? A Human Evaluation of Slice Discovery
Algorithms [24.127380328812855]
新しいスライス発見アルゴリズムは、データの一貫性と高いエラーのサブセットをグループ化することを目的としている。
2つの最先端スライス探索アルゴリズムによって出力される40個のスライスをユーザに示し、オブジェクト検出モデルに関する仮説を作成するよう依頼する。
以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。
論文 参考訳(メタデータ) (2023-06-13T22:44:53Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Do Users Benefit From Interpretable Vision? A User Study, Baseline, And
Dataset [8.863479255829139]
本研究では,ベースラインの説明手法が,概念に基づく,反現実的な説明に対してどのように機能するかを検証するために,ユーザスタディを実施している。
そこで,本研究では,参加者が属性の集合を,基幹構造と比較して識別できるかどうかを検証した。
非可逆ニューラルネットワークからの対実的説明はベースラインと同様に実行された。
論文 参考訳(メタデータ) (2022-04-25T13:20:06Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。