論文の概要: Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors
- arxiv url: http://arxiv.org/abs/2305.17055v1
- Date: Fri, 26 May 2023 16:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:38:05.915874
- Title: Counterfactuals of Counterfactuals: a back-translation-inspired approach
to analyse counterfactual editors
- Title(参考訳): カウンターファクトリアルのカウンターファクトリアル--逆翻訳にインスパイアされた反ファクトリアルエディターの分析アプローチ
- Authors: Giorgos Filandrianos, Edmund Dervakos, Orfeas Menis-Mastromichalakis,
Chrysoula Zerva, Giorgos Stamou
- Abstract要約: 我々は、反事実的、対照的な説明の分析に焦点をあてる。
本稿では,新しい逆翻訳に基づく評価手法を提案する。
本研究では, 予測モデルと説明モデルの両方の振る舞いについて, 反事実を反復的に説明者に与えることで, 価値ある洞察を得ることができることを示す。
- 参考スコア(独自算出の注目度): 3.4253416336476246
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the wake of responsible AI, interpretability methods, which attempt to
provide an explanation for the predictions of neural models have seen rapid
progress. In this work, we are concerned with explanations that are applicable
to natural language processing (NLP) models and tasks, and we focus
specifically on the analysis of counterfactual, contrastive explanations. We
note that while there have been several explainers proposed to produce
counterfactual explanations, their behaviour can vary significantly and the
lack of a universal ground truth for the counterfactual edits imposes an
insuperable barrier on their evaluation. We propose a new back
translation-inspired evaluation methodology that utilises earlier outputs of
the explainer as ground truth proxies to investigate the consistency of
explainers. We show that by iteratively feeding the counterfactual to the
explainer we can obtain valuable insights into the behaviour of both the
predictor and the explainer models, and infer patterns that would be otherwise
obscured. Using this methodology, we conduct a thorough analysis and propose a
novel metric to evaluate the consistency of counterfactual generation
approaches with different characteristics across available performance
indicators.
- Abstract(参考訳): 責任あるAIの結果として、ニューラルネットワークの予測に関する説明を提供しようとする解釈可能性の手法が急速に進歩した。
本研究は,自然言語処理(nlp)モデルやタスクに適用可能な説明に焦点をあて,反事実的,対照的な説明の分析に焦点をあてる。
反事実的説明はいくつか提案されているが,その行動は著しく変化し,反事実的編集における普遍的根拠の真理の欠如は,評価に不可解な障壁を課している。
提案手法は,説明者の先行出力を基礎的真理プロキシとして利用し,説明者の一貫性を検討する。
説明者に対して反事実を反復的に与えることで、予測者および説明者モデルの振る舞いに対する貴重な洞察を得ることができ、それ以外の不明瞭なパターンを推測できることを示す。
本研究では,本手法を徹底的に分析し,利用可能な性能指標にまたがる異なる特性を持つ反事実生成手法の一貫性を評価するための新しい指標を提案する。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Generating Feasible and Plausible Counterfactual Explanations for Outcome Prediction of Business Processes [45.502284864662585]
データ駆動型アプローチであるREVISEDplusを導入し、妥当な対実的説明を生成する。
まず, プロセスデータの高密度領域内に存在する反ファクトデータを生成するために, 反ファクトアルゴリズムを限定する。
また、プロセスケースにおけるアクティビティ間のシーケンシャルなパターンを学習することで、妥当性を保証します。
論文 参考訳(メタデータ) (2024-03-14T09:56:35Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。