論文の概要: LIME-LLM: Probing Models with Fluent Counterfactuals, Not Broken Text
- arxiv url: http://arxiv.org/abs/2601.11746v1
- Date: Fri, 16 Jan 2026 19:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.308496
- Title: LIME-LLM: Probing Models with Fluent Counterfactuals, Not Broken Text
- Title(参考訳): LIME-LLM: 壊れたテキストではなく、偽造物による探索モデル
- Authors: George Mihaila, Suleyman Olcay Polat, Poli Nemkova, Himanshu Sharma, Namratha V. Urs, Mark V. Albert,
- Abstract要約: LIME-LLMは、ランダムノイズを仮説駆動の制御摂動に置き換えるフレームワークである。
実験の結果、LIME-LLMはブラックボックスの説明可能性のための新しいベンチマークを確立している。
- 参考スコア(独自算出の注目度): 7.194073942393882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local explanation methods such as LIME (Ribeiro et al., 2016) remain fundamental to trustworthy AI, yet their application to NLP is limited by a reliance on random token masking. These heuristic perturbations frequently generate semantically invalid, out-of-distribution inputs that weaken the fidelity of local surrogate models. While recent generative approaches such as LLiMe (Angiulli et al., 2025b) attempt to mitigate this by employing Large Language Models for neighborhood generation, they rely on unconstrained paraphrasing that introduces confounding variables, making it difficult to isolate specific feature contributions. We introduce LIME-LLM, a framework that replaces random noise with hypothesis-driven, controlled perturbations. By enforcing a strict "Single Mask-Single Sample" protocol and employing distinct neutral infill and boundary infill strategies, LIME-LLM constructs fluent, on-manifold neighborhoods that rigorously isolate feature effects. We evaluate our method against established baselines (LIME, SHAP, Integrated Gradients) and the generative LLiMe baseline across three diverse benchmarks: CoLA, SST-2, and HateXplain using human-annotated rationales as ground truth. Empirical results demonstrate that LIME-LLM establishes a new benchmark for black-box NLP explainability, achieving significant improvements in local explanation fidelity compared to both traditional perturbation-based methods and recent generative alternatives.
- Abstract(参考訳): LIME(Ribeiro et al , 2016)のような局所的な説明法は、信頼できるAIの基礎のままであるが、NLPへの適用はランダムトークンマスキングに依存して制限されている。
これらのヒューリスティックな摂動は、しばしば、局所代理モデルの忠実度を弱める意味論的に無効な分布外入力を生成する。
LLiMe (Angiulli et al , 2025b) のような最近の生成的アプローチは、近隣の世代にLarge Language Models を用いることによってこれを緩和しようとするが、それらは相反する変数を導入する制約のないパラフレーズに依存しており、特定の特徴の寄与を分離することが困難である。
LIME-LLMは、ランダムノイズを仮説駆動の制御摂動に置き換えるフレームワークである。
厳格な"Single Mask-Single Sample"プロトコルを導入し、異なる中立なインフィルとバウンダリのインフィル戦略を採用することで、LIME-LLMは、特徴効果を厳格に分離する、流動的でオンマニフォールドな地区を構築する。
提案手法は,CLA,SST-2,HateXplainの3つのベンチマークにおいて,人間の注釈付き有理値を用いて,確立されたベースライン(LIME,SHAP,Integrated Gradients)と生成的LLiMeベースラインに対して評価を行った。
実験の結果, LIME-LLM はブラックボックス NLP 説明可能性の新たなベンチマークを確立し, 従来の摂動法と最近の生成法と比較して, 局所的説明の忠実度を著しく改善した。
関連論文リスト
- Improving Local Fidelity Through Sampling and Modeling Nonlinearity [3.7080015862513847]
Local Interpretable Model-Agnostic Explanation (LIME) は、局所的な決定境界が線形であり、非線形の関係を捉えることができないと仮定する。
本稿では,高忠実度な説明を生成できる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-12-05T09:26:18Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - GLIME: General, Stable and Local LIME Explanation [11.002828804775392]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデル行動を理解するために広く用いられる手法である。
GLIMEは、LIMEを拡張し、いくつかの先行メソッドを統合する拡張フレームワークである。
局所的および非バイアスなサンプリング分布を用いることで、GLIMEはLIMEと比較して局所的忠実度の高い説明を生成する。
論文 参考訳(メタデータ) (2023-11-27T11:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。