論文の概要: Faithful and Robust Local Interpretability for Textual Predictions
- arxiv url: http://arxiv.org/abs/2311.01605v3
- Date: Tue, 9 Apr 2024 10:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:06:52.143612
- Title: Faithful and Robust Local Interpretability for Textual Predictions
- Title(参考訳): テキスト予測のための忠実でロバストな局所的解釈可能性
- Authors: Gianluigi Lopardo, Frederic Precioso, Damien Garreau,
- Abstract要約: FRED(Fithful and Robust Explainer for textual Documents)を提案する。
FREDは、モデル予測を説明するための3つの重要な洞察を提供する:(1)除去が予測に最も強い影響を及ぼす文書内の単語の最小セットを識別し、(2)重要スコアを各トークンに割り当て、モデルの出力にその影響を反映し、(3)非現実的な説明を提供する。
- 参考スコア(独自算出の注目度): 6.492879435794228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability is essential for machine learning models to be trusted and deployed in critical domains. However, existing methods for interpreting text models are often complex, lack mathematical foundations, and their performance is not guaranteed. In this paper, we propose FRED (Faithful and Robust Explainer for textual Documents), a novel method for interpreting predictions over text. FRED offers three key insights to explain a model prediction: (1) it identifies the minimal set of words in a document whose removal has the strongest influence on the prediction, (2) it assigns an importance score to each token, reflecting its influence on the model's output, and (3) it provides counterfactual explanations by generating examples similar to the original document, but leading to a different prediction. We establish the reliability of FRED through formal definitions and theoretical analyses on interpretable classifiers. Additionally, our empirical evaluation against state-of-the-art methods demonstrates the effectiveness of FRED in providing insights into text models.
- Abstract(参考訳): 機械学習モデルの信頼性と重要なドメインへのデプロイには、解釈可能性が不可欠である。
しかし、既存のテキストモデルを解釈する手法はしばしば複雑であり、数学的基礎が欠如しており、その性能は保証されていない。
本稿では,テキスト上の予測を解釈する新しい手法であるFRED(Fithful and Robust Explainer for Textual Documents)を提案する。
FREDは,(1)削除が予測に最も強い影響を及ぼす文書中の単語の最小セットを識別し,(2)重要スコアを各トークンに割り当て,その影響をモデル出力に反映し,(3)元の文書に類似した例を生成して,事実的説明を提供する。
解釈可能な分類器の形式的定義と理論的解析によりFREDの信頼性を確立する。
さらに、最先端手法に対する実証的な評価は、テキストモデルに対する洞察を提供する上で、FREDの有効性を示す。
関連論文リスト
- Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction [23.78984414404192]
我々は,XAI技術と事前学習対象検出器を用いたTbExplainというフレームワークを提案し,シーン分類モデルのテキストベース説明を行う。
TbExplainは、初期予測が信頼できない場合に、入力画像内のオブジェクトの統計に基づいて予測を補正し、それらをテキストで説明するための新しい手法を取り入れている。
論文 参考訳(メタデータ) (2023-07-19T14:23:26Z) - Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors [3.4253416336476246]
我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
論文 参考訳(メタデータ) (2023-05-26T16:04:28Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Understanding Post-hoc Explainers: The Case of Anchors [6.681943980068051]
本稿では,テキストの判断を説明するために,少数の単語群をハイライトする規則に基づく解釈可能性法の理論解析を行う。
アルゴリズムを定式化し有用な洞察を提供した後、数学的にアンカーが有意義な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-15T17:56:34Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。