論文の概要: Red Teaming Deep Neural Networks with Feature Synthesis Tools
- arxiv url: http://arxiv.org/abs/2302.10894v2
- Date: Sat, 1 Jul 2023 22:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:31:16.187496
- Title: Red Teaming Deep Neural Networks with Feature Synthesis Tools
- Title(参考訳): redがディープニューラルネットワークと機能合成ツールで提携
- Authors: Stephen Casper, Yuxiao Li, Jiawei Li, Tong Bu, Kevin Zhang, Kaivalya
Hariharan, Dylan Hadfield-Menell
- Abstract要約: 解釈可能なAIツールは、アウト・オブ・ディストリビューションコンテキストにおけるモデルの振る舞いを理解するという目標によって、しばしば動機付けられます。
この研究領域が注目されているにもかかわらず、これらのツールがモデルで新しく、以前は未知のバグを特定できたケースは比較的少ない。
これは、ある特定のデータセットを使用してモデルの振る舞いを分析し、説明する、多くの解釈可能性メソッドの共通の特徴によるものである、と我々は主張する。
- 参考スコア(独自算出の注目度): 6.718092594878861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable AI tools are often motivated by the goal of understanding model
behavior in out-of-distribution (OOD) contexts. Despite the attention this area
of study receives, there are comparatively few cases where these tools have
identified novel, previously unknown, bugs in models. We argue that this is
due, in part, to a common feature of many interpretability methods: they
analyze and explain the behavior of a model using a particular dataset. While
this is useful, such tools can only analyze behaviors induced by features that
the user can sample or identify in advance. To address this, a growing body of
research involves interpreting models using feature synthesis methods which do
not depend on a dataset.
In this paper, our primary contribution is a benchmark to evaluate
interpretability tools. Our key insight is that we can train models that
respond to specific triggers (e.g., a specific patch inserted into an image)
with specific outputs (i.e. a label) and then evaluate interpretability tools
based on whether they help humans identify these triggers. We make four
contributions. (1) We propose trojan discovery as an evaluation task for
interpretability tools and introduce a trojan-discovery benchmark with 12
trojans of 3 different types. (2) We demonstrate the difficulty of this
benchmark with a preliminary evaluation of 16 feature attribution/saliency
tools. Even with access to data with a trojan's trigger, these methods
regularly fail to identify bugs. (3) We evaluate 7 feature-synthesis methods on
our benchmark. (4) We introduce and evaluate 2 variants of the best-performing
method from the previous evaluation.
- Abstract(参考訳): 解釈可能なaiツールは、しばしばood(out-of-distribution)コンテキストにおけるモデルの振る舞いを理解するという目標によって動機づけられる。
この研究領域が注目されているにもかかわらず、これらのツールがモデルで新しく、以前は未知のバグを特定できたケースは比較的少ない。
これは、ある特定のデータセットを使用してモデルの振る舞いを分析し、説明する、多くの解釈可能性メソッドの共通の特徴によるものである、と我々は主張する。
これは便利だが、こうしたツールはユーザーが事前にサンプリングしたり特定したりできる機能によって引き起こされる行動のみを分析することができる。
これに対処するために、データ集合に依存しない特徴合成法を用いてモデルを解釈する研究が増えている。
本稿では,解釈ツールを評価するためのベンチマークについて述べる。
私たちの重要な洞察は、特定のトリガー(例えば、画像に挿入された特定のパッチ)に対して特定の出力(すなわちラベル)で応答するモデルをトレーニングし、人間がトリガーを特定するのに役立つかどうかに基づいて解釈可能性ツールを評価することです。
我々は4つの貢献をした。
1)解釈ツールの評価タスクとしてトロイの木馬の発見を提案し,3種類のトロイの木馬12種によるトロイの木馬発見ベンチマークを提案する。
2) 本ベンチマークの難易度を,16の機能帰属/提供ツールの予備評価で示す。
トロイの木馬のトリガーでデータにアクセスする場合でも、これらのメソッドは定期的にバグを識別できない。
(3)7種類の特徴合成法をベンチマークで評価した。
(4) これまでの評価から, ベストパフォーマンス手法の2つの変種を紹介し, 評価する。
関連論文リスト
- Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。
モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。
この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文 参考訳(メタデータ) (2023-11-07T16:31:56Z) - Precise Benchmarking of Explainable AI Attribution Methods [0.0]
本稿では,最新のXAI属性手法のベンチマークのための新しい評価手法を提案する。
提案手法は, 基礎的真理の説明を伴う合成分類モデルから成り立っている。
実験の結果, Guided-Backprop 法と Smoothgrad XAI 法の性能に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2023-08-06T17:03:32Z) - Where Does My Model Underperform? A Human Evaluation of Slice Discovery
Algorithms [24.127380328812855]
新しいスライス発見アルゴリズムは、データの一貫性と高いエラーのサブセットをグループ化することを目的としている。
2つの最先端スライス探索アルゴリズムによって出力される40個のスライスをユーザに示し、オブジェクト検出モデルに関する仮説を作成するよう依頼する。
以上の結果から,これらのツールが素直なベースラインよりも有益であることを示すとともに,仮説形成段階においてユーザが直面する課題にも光を当てることができた。
論文 参考訳(メタデータ) (2023-06-13T22:44:53Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Do Users Benefit From Interpretable Vision? A User Study, Baseline, And
Dataset [8.863479255829139]
本研究では,ベースラインの説明手法が,概念に基づく,反現実的な説明に対してどのように機能するかを検証するために,ユーザスタディを実施している。
そこで,本研究では,参加者が属性の集合を,基幹構造と比較して識別できるかどうかを検証した。
非可逆ニューラルネットワークからの対実的説明はベースラインと同様に実行された。
論文 参考訳(メタデータ) (2022-04-25T13:20:06Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。