論文の概要: Does It Make Sense to Explain a Black Box With Another Black Box?
- arxiv url: http://arxiv.org/abs/2404.14943v1
- Date: Tue, 23 Apr 2024 11:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:21:26.314074
- Title: Does It Make Sense to Explain a Black Box With Another Black Box?
- Title(参考訳): ブラックボックスを別のブラックボックスで説明できるのか?
- Authors: Julien Delaunay, Luis Galárraga, Christine Largouët,
- Abstract要約: 文学における反現実的説明法の主な2つの家系、すなわち、(a)単語の追加、削除、置換によってターゲットを摂動させる非透明な方法、および(b)対象文書をその後に摂動が行われる非解釈可能な空間に投影するエンフォパク的アプローチである。
我々の実証的な証拠は、不透明なアプローチが、偽ニュースの検出や感情分析のような下流アプリケーションにとって過大なスキルであることを示している。
- 参考スコア(独自算出の注目度): 5.377278489623063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although counterfactual explanations are a popular approach to explain ML black-box classifiers, they are less widespread in NLP. Most methods find those explanations by iteratively perturbing the target document until it is classified differently by the black box. We identify two main families of counterfactual explanation methods in the literature, namely, (a) \emph{transparent} methods that perturb the target by adding, removing, or replacing words, and (b) \emph{opaque} approaches that project the target document into a latent, non-interpretable space where the perturbation is carried out subsequently. This article offers a comparative study of the performance of these two families of methods on three classical NLP tasks. Our empirical evidence shows that opaque approaches can be an overkill for downstream applications such as fake news detection or sentiment analysis since they add an additional level of complexity with no significant performance gain. These observations motivate our discussion, which raises the question of whether it makes sense to explain a black box using another black box.
- Abstract(参考訳): 対物的説明はMLブラックボックス分類器を説明する一般的なアプローチであるが、NLPではあまり普及していない。
ほとんどのメソッドは、ブラックボックスによって異なる分類になるまで、ターゲット文書を反復的に摂動することでこれらの説明を見つける。
文献,すなわち,2つの対実的説明方法のメインファミリーを同定する。
(a)単語の追加、削除、置換によりターゲットを混乱させる方法、及び
(b) \emph{opaque} は、対象の文書を遅延非解釈可能な空間に投影し、その後摂動が行われるようにアプローチする。
本稿では3つの古典的NLPタスクにおける2種類の手法の性能の比較研究について述べる。
我々の実証的な証拠は、不透明なアプローチが、偽ニュースの検出や感情分析のような下流アプリケーションにとって過大なスキルであることを示している。
これらの観察が私たちの議論の動機となり、別のブラックボックスを使ってブラックボックスを説明するのが理にかなっているかどうかという疑問が提起される。
関連論文リスト
- Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - On the amplification of security and privacy risks by post-hoc
explanations in machine learning models [7.564511776742979]
インプットディメンションを重要あるいは関連性に応じて強調するポストホックな説明方法もまた、セキュリティとプライバシを弱める情報を漏洩させる。
我々は,同じ成功率のクエリ数を10倍に削減する,説明誘導型ブラックボックス回避攻撃を提案する。
本研究では, 推定勾配の総分散の低減として, 説明からの逆効果を定量化できることを示す。
論文 参考訳(メタデータ) (2022-06-28T13:46:06Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Reinforcement Explanation Learning [4.852320309766702]
従順写像を生成するブラックボックス法は、決定を説明するためにモデルの内部を使わないという事実から、特に興味深い。
逐次探索問題としてサリエンシマップ生成を定式化し、強化学習(RL)を利用して入力画像から証拠を蓄積する。
3つのベンチマークデータセットの実験は、提案手法がパフォーマンスを損なわずに最先端の予測時間よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-26T10:20:01Z) - What will it take to generate fairness-preserving explanations? [15.801388187383973]
我々は、データセットに適用された説明に焦点をあて、ブラックボックスアルゴリズムの公平性を必ずしも保持していないことを示唆する。
フェアネスの観点から情報的かつ関連性の高い説明を評価・生成するための今後の研究方向を提案する。
論文 参考訳(メタデータ) (2021-06-24T23:03:25Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z) - Benchmarking and Survey of Explanation Methods for Black Box Models [9.747543620322956]
返された説明の種類に基づいて、説明方法の分類を提供します。
本稿では,最も最近広く使われている説明器を紹介し,説明の視覚的比較と定量的ベンチマークを示す。
論文 参考訳(メタデータ) (2021-02-25T18:50:29Z) - Towards the Unification and Robustness of Perturbation and Gradient
Based Explanations [23.41512277145231]
グラデーションに基づく手法であるSmoothGradと、摂動に基づく手法であるLIMEの変種という2つのポピュラーなポストホック解釈手法を分析します。
これら2つの方法で出力された説明に対する明確な閉じた形式表現を導出し、両者が期待通り同じ説明に収束することを示した。
我々は,合成データと実世界データの両方について広範な実験を行い,理論を実証的に検証した。
論文 参考訳(メタデータ) (2021-02-21T14:51:18Z) - Local Black-box Adversarial Attacks: A Query Efficient Approach [64.98246858117476]
アドリアックは、セキュリティに敏感なシナリオにおけるディープニューラルネットワークの適用を脅かしている。
ブラックボックス攻撃における限られたクエリ内でのみクリーンな例の識別領域を摂動させる新しいフレームワークを提案する。
攻撃成功率の高いブラックボックス摂動時のクエリ効率を大幅に改善できることを示すため,広範な実験を行った。
論文 参考訳(メタデータ) (2021-01-04T15:32:16Z) - The Extraordinary Failure of Complement Coercion Crowdsourcing [50.599433903377374]
クラウドソーシングは近年,言語アノテーションの収集を緩和し,スケールアップしている。
本研究の目的は,この現象の注釈付きデータを2つの既知のタスク – 明示的補完と自然言語推論 – に還元することで収集することである。
どちらの場合も、クラウドソーシングは合意のスコアが低かった。
論文 参考訳(メタデータ) (2020-10-12T19:04:04Z) - Model extraction from counterfactual explanations [68.8204255655161]
本稿では, 敵が反実的説明によって提供された情報を利用して, 高精度かつ高精度なモデル抽出攻撃を構築する方法を示す。
我々の攻撃は、敵が相手モデルの忠実なコピーを、その偽説明にアクセスして作成することを可能にする。
論文 参考訳(メタデータ) (2020-09-03T19:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。