論文の概要: NoMatterXAI: Generating "No Matter What" Alterfactual Examples for Explaining Black-Box Text Classification Models
- arxiv url: http://arxiv.org/abs/2408.10528v1
- Date: Tue, 20 Aug 2024 04:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:13:44.005149
- Title: NoMatterXAI: Generating "No Matter What" Alterfactual Examples for Explaining Black-Box Text Classification Models
- Title(参考訳): NoMatterXAI: Black-Box テキスト分類モデルの記述例
- Authors: Tuc Nguyen, James Michels, Hua Shen, Thai Le,
- Abstract要約: 対物的説明(CE)は重要な機能にのみ焦点をあて、無関係なものを無視します。
人工的な説明(AE)は「何があっても」という代替の現実を探求する
本稿では,テキスト分類タスクのためのAEを生成する新しいアルゴリズムであるMoMatterXAIを紹介する。
- 参考スコア(独自算出の注目度): 13.46175798016079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Explainable AI (XAI), counterfactual explanations (CEs) are a well-studied method to communicate feature relevance through contrastive reasoning of "what if" to explain AI models' predictions. However, they only focus on important (i.e., relevant) features and largely disregard less important (i.e., irrelevant) ones. Such irrelevant features can be crucial in many applications, especially when users need to ensure that an AI model's decisions are not affected or biased against specific attributes such as gender, race, religion, or political affiliation. To address this gap, the concept of alterfactual explanations (AEs) has been proposed. AEs explore an alternative reality of "no matter what", where irrelevant features are substituted with alternative features (e.g., "republicans" -> "democrats") within the same attribute (e.g., "politics") while maintaining a similar prediction output. This serves to validate whether AI model predictions are influenced by the specified attributes. Despite the promise of AEs, there is a lack of computational approaches to systematically generate them, particularly in the text domain, where creating AEs for AI text classifiers presents unique challenges. This paper addresses this challenge by formulating AE generation as an optimization problem and introducing MoMatterXAI, a novel algorithm that generates AEs for text classification tasks. Our approach achieves high fidelity of up to 95% while preserving context similarity of over 90% across multiple models and datasets. A human study further validates the effectiveness of AEs in explaining AI text classifiers to end users. All codes will be publicly available.
- Abstract(参考訳): 説明可能なAI(XAI: Explainable AI)では、AIモデルの予測を説明するために、"What if"の対照的な推論を通じて機能関連を伝達する、反実的説明(CE)がよく研究されている。
しかし、それらは重要な(すなわち、関連する)機能のみに焦点を当て、重要でない(すなわち、無関係な)ものを無視している。
このような無関係な機能は、特にAIモデルの決定が、性別、人種、宗教、政治的所属といった特定の属性に影響されないか、偏見がないかを確認する必要がある場合、多くのアプリケーションにおいて重要である。
このギャップに対処するため, 構造的説明(AE)の概念が提案されている。
AEは、類似した予測出力を維持しながら、同じ属性(例えば、"republicans" -> "democrats")内の別の特徴(例えば、"republicans" -> "democrats")に置き換えられる「何があっても」という代替的な現実を探求する。
これは、AIモデル予測が指定された属性に影響されているかどうかを検証するのに役立つ。
AEsの約束にもかかわらず、それらを体系的に生成するための計算アプローチが欠如している。特にテキストドメインでは、AIテキスト分類器用のAEsを作成することがユニークな課題である。
本稿では,AE生成を最適化問題として定式化し,テキスト分類タスク用のAEを生成する新しいアルゴリズムであるMoMatterXAIを導入することで,この問題に対処する。
提案手法は,複数のモデルやデータセットに対して90%以上のコンテキスト類似性を保ちながら,最大95%の忠実度を達成する。
人間による研究は、AIテキスト分類器をエンドユーザに説明する際のAEsの有効性をさらに検証する。
すべてのコードは公開されます。
関連論文リスト
- Relevant Irrelevance: Generating Alterfactual Explanations for Image Classifiers [11.200613814162185]
本稿では,ブラックボックス画像分類器の再現的説明の実現可能性を示す。
ニューラルネットワークに基づくブラックボックスモデルにこのアイデアを適用することが可能であることを初めて示します。
論文 参考訳(メタデータ) (2024-05-08T11:03:22Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - CAGE: Causality-Aware Shapley Value for Global Explanations [4.017708359820078]
AIモデルを説明する1つの方法は、AIモデルに対する入力機能の予測的重要性を明らかにすることである。
協調ゲーム理論に触発されたシェープリーは、特徴の重要性を説明として定量化する便利な方法を提供する。
特に、入力特徴の因果関係を尊重する外部特徴に対する新しいサンプリング手順を導入する。
論文 参考訳(メタデータ) (2024-04-17T09:43:54Z) - Even if Explanations: Prior Work, Desiderata & Benchmarks for
Semi-Factual XAI [7.881140597011731]
反事実的、半事実的なサブタイプは、AIではあまり注目されていない。
本稿では,この地域の歴史的・最近のブレークスルーを要約する文献を調査する。
半実のXAIのための重要なデシラタを定義し、過去のアルゴリズムのベンチマークテストを報告している。
論文 参考訳(メタデータ) (2023-01-27T19:58:12Z) - Alterfactual Explanations -- The Relevance of Irrelevance for Explaining
AI Systems [0.9542023122304099]
我々は、決定を完全に理解するためには、関連する特徴に関する知識だけでなく、無関係な情報の認識もAIシステムのユーザーのメンタルモデルの作成に大きく貢献すると主張している。
私たちのアプローチは、Alterfactual Explanations(Alterfactual Explanations)と呼ばれ、AIの入力の無関係な特徴が変更された別の現実を示すことに基づいています。
我々は,AIの推論のさまざまな側面を,反事実的説明法よりも理解するために,人工的説明が適していることを示す。
論文 参考訳(メタデータ) (2022-07-19T16:20:37Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - On Adversarial Examples and Stealth Attacks in Artificial Intelligence
Systems [62.997667081978825]
本稿では,汎用人工知能(AI)システムに対する2種類の多元性行動の評価と分析を行うための公式な枠組みを提案する。
最初のクラスは、逆例を含み、誤分類を引き起こす入力データの小さな摂動の導入を懸念する。
第2のクラスは、ここで初めて導入され、ステルス攻撃と名付けられたもので、AIシステム自体に対する小さな摂動を伴う。
論文 参考訳(メタデータ) (2020-04-09T10:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。