論文の概要: DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models
- arxiv url: http://arxiv.org/abs/2411.04649v1
- Date: Thu, 07 Nov 2024 12:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:24.495205
- Title: DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models
- Title(参考訳): DisCO:テキスト分類モデルの因果ルールとしてのオーバーフィッティングを廃止
- Authors: Zijian Zhang, Vinay Setty, Yumeng Wang, Avishek Anand,
- Abstract要約: ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
- 参考スコア(独自算出の注目度): 6.369258625916601
- License:
- Abstract: With the rapid advancement of neural language models, the deployment of over-parameterized models has surged, increasing the need for interpretable explanations comprehensible to human inspectors. Existing post-hoc interpretability methods, which often focus on unigram features of single input textual instances, fail to capture the models' decision-making process fully. Additionally, many methods do not differentiate between decisions based on spurious correlations and those based on a holistic understanding of the input. Our paper introduces DISCO, a novel method for discovering global, rule-based explanations by identifying causal n-gram associations with model predictions. This method employs a scalable sequence mining technique to extract relevant text spans from training data, associate them with model predictions, and conduct causality checks to distill robust rules that elucidate model behavior. These rules expose potential overfitting and provide insights into misleading feature combinations. We validate DISCO through extensive testing, demonstrating its superiority over existing methods in offering comprehensive insights into complex model behaviors. Our approach successfully identifies all shortcuts manually introduced into the training data (100% detection rate on the MultiRC dataset), resulting in an 18.8% regression in model performance -- a capability unmatched by any other method. Furthermore, DISCO supports interactive explanations, enabling human inspectors to distinguish spurious causes in the rule-based output. This alleviates the burden of abundant instance-wise explanations and helps assess the model's risk when encountering out-of-distribution (OOD) data.
- Abstract(参考訳): ニューラルネットワークモデルの急速な進歩により、過パラメータ化モデルの展開が急増し、人間のインスペクタにとって理解しやすい解釈可能な説明の必要性が高まった。
シングルインプットテキストインスタンスのユニグラム機能に重点を置く、既存のポストホックの解釈可能性メソッドは、モデルの意思決定プロセスを完全にキャプチャすることができない。
さらに、多くの手法は、素早い相関に基づく決定と、入力の全体的理解に基づく決定とを区別しない。
モデル予測と因果n-gramの関連を同定し,グローバルな規則に基づく説明を見つけるための新しい手法であるdisCOを紹介した。
この方法はスケーラブルなシークエンスマイニング手法を用いて、トレーニングデータから関連するテキストを抽出し、それらをモデル予測に関連付け、因果チェックを行い、モデルの振る舞いを解明する堅牢なルールを蒸留する。
これらのルールは、潜在的な過剰適合を明らかにし、誤解を招く機能の組み合わせに関する洞察を提供する。
複雑なモデル行動に関する総合的な洞察を提供する上で、既存の手法よりも優れていることを実証し、広範囲なテストを通じてdisCOを検証する。
このアプローチでは、トレーニングデータに手動で導入されたすべてのショートカット(MultiRCデータセットでの100%検出率)を正常に識別し、結果としてモデルパフォーマンスの18.8%の回帰 -- 他の方法では一致しない機能 -- が実現した。
さらに、disCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
これにより、豊富なインスタンスワイズ説明の負担を軽減し、アウト・オブ・ディストリビューション(OOD)データに遭遇する際のモデルのリスクを評価するのに役立ちます。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales [3.242050660144211]
ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。
本稿では,人間の判断を説明するテキストアノテーションをテキスト分類モデルに組み込む手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T22:39:33Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Interpretable Data-Based Explanations for Fairness Debugging [7.266116143672294]
Gopherは、バイアスや予期せぬモデルの振る舞いに関するコンパクトで解釈可能な、因果的な説明を生成するシステムである。
我々は,学習データに介入する程度を,サブセットの削除や更新によって定量化する因果責任の概念を導入し,バイアスを解消する。
この概念に基づいて、モデルバイアスを説明するトップkパターンを生成するための効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-17T20:10:00Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Adversarial Infidelity Learning for Model Interpretation [43.37354056251584]
本稿では,モデル解釈のためのモデル非依存能率直接(MEED)FSフレームワークを提案する。
我々のフレームワークは、正当性、ショートカット、モデルの識別可能性、情報伝達に関する懸念を緩和する。
我々のAILメカニズムは、選択した特徴と目標の間の条件分布を学習するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-09T16:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。