論文の概要: A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers
- arxiv url: http://arxiv.org/abs/2411.02643v1
- Date: Mon, 04 Nov 2024 22:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:36.685294
- Title: A Comparative Analysis of Counterfactual Explanation Methods for Text Classifiers
- Title(参考訳): テキスト分類器の対実的説明法の比較分析
- Authors: Stephen McAleese, Mark Keane,
- Abstract要約: BERTテキスト分類器の逆実説明を生成する5つの方法を評価する。
確立されたホワイトボックス置換ベースのメソッドは、分類器の出力を変更する有効な偽物を生成するのに効果的である。
大規模言語モデル(LLM)に基づく新しい手法は、自然言語および言語学的に妥当なテキスト偽造物を生成するのに優れている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Counterfactual explanations can be used to interpret and debug text classifiers by producing minimally altered text inputs that change a classifier's output. In this work, we evaluate five methods for generating counterfactual explanations for a BERT text classifier on two datasets using three evaluation metrics. The results of our experiments suggest that established white-box substitution-based methods are effective at generating valid counterfactuals that change the classifier's output. In contrast, newer methods based on large language models (LLMs) excel at producing natural and linguistically plausible text counterfactuals but often fail to generate valid counterfactuals that alter the classifier's output. Based on these results, we recommend developing new counterfactual explanation methods that combine the strengths of established gradient-based approaches and newer LLM-based techniques to generate high-quality, valid, and plausible text counterfactual explanations.
- Abstract(参考訳): 因果的説明は、分類器の出力を変更する最小限の変更されたテキスト入力を生成することによって、テキスト分類器の解釈とデバッグに使用することができる。
本研究では,3つの評価指標を用いて,BERTテキスト分類器の対実的説明を生成する5つの手法を評価する。
実験の結果,確立されたホワイトボックス置換法は,分類器の出力を変化させる有効な偽物を生成するのに有効であることが示唆された。
対照的に、大規模言語モデル(LLMs)に基づく新しい手法は、自然かつ言語的に妥当なテキスト偽造物を生成するのに優れているが、しばしば分類器の出力を変更する有効な偽造物を生成するのに失敗する。
これらの結果に基づいて、確立された勾配に基づくアプローチの強みと、より新しいLCMに基づく手法を組み合わせることで、高品質で有効で、かつ、妥当なテキストの反実的説明を生成する新しい対実的説明法を開発することを推奨する。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Prompt Optimization via Adversarial In-Context Learning [51.18075178593142]
adv-ICLは、ジェネレータとディスクリミネータの間の2プレイヤーゲームとして実装される。
ジェネレータは、判別器を騙すのに十分な出力を生成する。
本稿では,Adv-ICLが最先端のプロンプト最適化技術を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-12-05T09:44:45Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Flexible text generation for counterfactual fairness probing [8.262741696221143]
テキストベースの分類器における公平性問題をテストする一般的なアプローチは、偽造品の使用である。
既存の偽物生成方法はワードリストやテンプレートに依存しており、文法や文脈、微妙な属性参照を考慮していない単純な偽物を生成する。
本稿では,これらの欠点を克服し,大規模言語モデル(LLM)をいかに活用してその課題を進展させるかを示す。
論文 参考訳(メタデータ) (2022-06-28T05:07:20Z) - Fooling Explanations in Text Classifiers [42.49606659285249]
テキスト入力サンプルを非知覚的に変更する新しい説明攻撃アルゴリズムであるTextExplanationer (TEF) を導入する。
TEFは変化しない入力属性と摂動入力属性の相関を著しく減少させる。
また,TAFの摂動は,対象モデルと説明法が不明なシナリオにおいても有効であることを示す。
論文 参考訳(メタデータ) (2022-06-07T10:58:08Z) - Classifiers are Better Experts for Controllable Text Generation [63.17266060165098]
提案手法は, PPLにおける最近のPPLM, GeDi, DExpertsよりも有意に優れており, 生成したテキストの外部分類器に基づく感情の精度が高いことを示す。
同時に、実装やチューニングも簡単で、制限や要件も大幅に少なくなります。
論文 参考訳(メタデータ) (2022-05-15T12:58:35Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。