論文の概要: PLEX: Perturbation-free Local Explanations for LLM-Based Text Classification
- arxiv url: http://arxiv.org/abs/2507.10596v1
- Date: Sat, 12 Jul 2025 06:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.765574
- Title: PLEX: Perturbation-free Local Explanations for LLM-Based Text Classification
- Title(参考訳): PLEX: LLMテキスト分類のための摂動自由局所記述
- Authors: Yogachandran Rahulamathavan, Misbah Farooq, Varuna De Silva,
- Abstract要約: 大規模言語モデル(LLM)はテキスト分類において優れているが、その複雑さは解釈可能性を妨げる。
本稿では,アンダーライン・インダーライン・インダーライン・インダーライン・インダーライン・エクスプランテーション(PLEX)を提案する。
このワンオフトレーニングは、後続の摂動の必要性を排除し、新しい文の効率的な説明を可能にする。
- 参考スコア(独自算出の注目度): 2.57847594292453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel in text classification, but their complexity hinders interpretability, making it difficult to understand the reasoning behind their predictions. Explainable AI (XAI) methods like LIME and SHAP offer local explanations by identifying influential words, but they rely on computationally expensive perturbations. These methods typically generate thousands of perturbed sentences and perform inferences on each, incurring a substantial computational burden, especially with LLMs. To address this, we propose \underline{P}erturbation-free \underline{L}ocal \underline{Ex}planation (PLEX), a novel method that leverages the contextual embeddings extracted from the LLM and a ``Siamese network" style neural network trained to align with feature importance scores. This one-off training eliminates the need for subsequent perturbations, enabling efficient explanations for any new sentence. We demonstrate PLEX's effectiveness on four different classification tasks (sentiment, fake news, fake COVID-19 news and depression), showing more than 92\% agreement with LIME and SHAP. Our evaluation using a ``stress test" reveals that PLEX accurately identifies influential words, leading to a similar decline in classification accuracy as observed with LIME and SHAP when these words are removed. Notably, in some cases, PLEX demonstrates superior performance in capturing the impact of key features. PLEX dramatically accelerates explanation, reducing time and computational overhead by two and four orders of magnitude, respectively. This work offers a promising solution for explainable LLM-based text classification.
- Abstract(参考訳): 大言語モデル(LLM)はテキスト分類において優れているが、その複雑さは解釈可能性を妨げるため、予測の背後にある理由を理解することは困難である。
LIMEやSHAPのような説明可能なAI(XAI)メソッドは、影響力のある単語を識別することで局所的な説明を提供するが、計算的に高価な摂動に依存している。
これらの手法は典型的には数千の摂動文を生成し、各文に対して推論を行い、特にLLMにおいてかなりの計算負担を発生させる。
そこで本稿では,LLM から抽出した文脈埋め込みを利用した新しい手法である \underline{P}erturbation-free \underline{L}ocal \underline{Ex}planation (PLEX) を提案する。
このワンオフトレーニングは、後続の摂動の必要性を排除し、新しい文の効率的な説明を可能にする。
pleXの4つの分類課題(センチメント、偽ニュース、偽のCOVID-19ニュース、抑うつ)における有効性を示す。
また, 「ストレステスト」 を用いた評価の結果, PLEX が有意な単語を正確に識別し, LIME や SHAP と同様の分類精度が低下することが明らかとなった。
特に、いくつかのケースでは、PLEXは重要な機能の影響を捉える上で、優れたパフォーマンスを示している。
PLEXは説明を劇的に加速し、時間と計算オーバーヘッドをそれぞれ2桁と4桁に短縮する。
この研究は、説明可能なLLMベースのテキスト分類のための有望なソリューションを提供する。
関連論文リスト
- Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - Layered Unlearning for Adversarial Relearning [4.7066636827902]
本研究では,言語モデルの振る舞いや表現をポストトレーニング法でどのように修正するかを検討する。
近年の研究では、学習後、特定の応答パターンを抑圧する浅い文脈依存回路'が誘導されることが示唆されている。
この仮説をテストするために、我々は未学習アルゴリズムLayered Unlearning (LU)を設計した。
LUは、データセット全体を復元するために、データのサブセットで再学習する能力を制限する。
論文 参考訳(メタデータ) (2025-05-14T15:50:45Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models [8.480318790780037]
本稿では,PLPPと呼ばれるプラグイン・プロンプト正規化手法を提案する。
4つの分類タスクで行った実験は、PLPPが既存の手法に比べて優れた性能を示したことを示している。
論文 参考訳(メタデータ) (2024-12-18T03:08:53Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Comparing zero-shot self-explanations with human rationales in text classification [5.32539007352208]
我々は,人間に対する妥当性とモデルに対する忠実性に関して,自己説明を評価した。
自己説明は、LRPと比較して人間のアノテーションとより密に一致し、かつ、同等の忠実さを維持していることを示す。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - An LLM-Enhanced Adversarial Editing System for Lexical Simplification [10.519804917399744]
Lexical Simplificationは、語彙レベルでのテキストの簡略化を目的としている。
既存のメソッドはアノテーション付きデータに大きく依存している。
並列コーパスのない新しいLS法を提案する。
論文 参考訳(メタデータ) (2024-02-22T17:04:30Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Large Language Models Are Zero-Shot Text Classifiers [3.617781755808837]
大規模言語モデル(LLM)は、自然言語処理(NLP)の様々なサブカテゴリで広く使われている。
NLPでは、テキスト分類の問題はかなりの焦点が当てられているが、高価な計算コスト、時間消費、目に見えないクラスに対する堅牢なパフォーマンスに関連するいくつかの制限に直面している。
思考促進チェーン(CoT)の提案により、ステップ推論プロンプトを用いてゼロショット学習(ZSL)を用いてLLMを実装できる。
論文 参考訳(メタデータ) (2023-12-02T06:33:23Z) - Take One Step at a Time to Know Incremental Utility of Demonstration: An Analysis on Reranking for Few-Shot In-Context Learning [23.932500424117244]
In-Context Learning (ICL)は大規模言語モデル(LLM)の創発的能力である
従来の研究では、ラベルとしてLLMの出力を使用することが、デモを選択するためのトレーニングモデルに有効であることが示されている。
本稿では,LLMの出力確率に着目して,異なるユーティリティ関数の解析を行う。
論文 参考訳(メタデータ) (2023-11-16T07:03:54Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。