論文の概要: LIME-LLM: Probing Models with Fluent Counterfactuals, Not Broken Text
- arxiv url: http://arxiv.org/abs/2601.11746v1
- Date: Fri, 16 Jan 2026 19:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.308496
- Title: LIME-LLM: Probing Models with Fluent Counterfactuals, Not Broken Text
- Title(参考訳): LIME-LLM: 壊れたテキストではなく、偽造物による探索モデル
- Authors: George Mihaila, Suleyman Olcay Polat, Poli Nemkova, Himanshu Sharma, Namratha V. Urs, Mark V. Albert,
- Abstract要約: LIME-LLMは、ランダムノイズを仮説駆動の制御摂動に置き換えるフレームワークである。
実験の結果、LIME-LLMはブラックボックスの説明可能性のための新しいベンチマークを確立している。
- 参考スコア(独自算出の注目度): 7.194073942393882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Local explanation methods such as LIME (Ribeiro et al., 2016) remain fundamental to trustworthy AI, yet their application to NLP is limited by a reliance on random token masking. These heuristic perturbations frequently generate semantically invalid, out-of-distribution inputs that weaken the fidelity of local surrogate models. While recent generative approaches such as LLiMe (Angiulli et al., 2025b) attempt to mitigate this by employing Large Language Models for neighborhood generation, they rely on unconstrained paraphrasing that introduces confounding variables, making it difficult to isolate specific feature contributions. We introduce LIME-LLM, a framework that replaces random noise with hypothesis-driven, controlled perturbations. By enforcing a strict "Single Mask-Single Sample" protocol and employing distinct neutral infill and boundary infill strategies, LIME-LLM constructs fluent, on-manifold neighborhoods that rigorously isolate feature effects. We evaluate our method against established baselines (LIME, SHAP, Integrated Gradients) and the generative LLiMe baseline across three diverse benchmarks: CoLA, SST-2, and HateXplain using human-annotated rationales as ground truth. Empirical results demonstrate that LIME-LLM establishes a new benchmark for black-box NLP explainability, achieving significant improvements in local explanation fidelity compared to both traditional perturbation-based methods and recent generative alternatives.
- Abstract(参考訳): LIME(Ribeiro et al , 2016)のような局所的な説明法は、信頼できるAIの基礎のままであるが、NLPへの適用はランダムトークンマスキングに依存して制限されている。
これらのヒューリスティックな摂動は、しばしば、局所代理モデルの忠実度を弱める意味論的に無効な分布外入力を生成する。
LLiMe (Angiulli et al , 2025b) のような最近の生成的アプローチは、近隣の世代にLarge Language Models を用いることによってこれを緩和しようとするが、それらは相反する変数を導入する制約のないパラフレーズに依存しており、特定の特徴の寄与を分離することが困難である。
LIME-LLMは、ランダムノイズを仮説駆動の制御摂動に置き換えるフレームワークである。
厳格な"Single Mask-Single Sample"プロトコルを導入し、異なる中立なインフィルとバウンダリのインフィル戦略を採用することで、LIME-LLMは、特徴効果を厳格に分離する、流動的でオンマニフォールドな地区を構築する。
提案手法は,CLA,SST-2,HateXplainの3つのベンチマークにおいて,人間の注釈付き有理値を用いて,確立されたベースライン(LIME,SHAP,Integrated Gradients)と生成的LLiMeベースラインに対して評価を行った。
実験の結果, LIME-LLM はブラックボックス NLP 説明可能性の新たなベンチマークを確立し, 従来の摂動法と最近の生成法と比較して, 局所的説明の忠実度を著しく改善した。
関連論文リスト
- Improving Local Fidelity Through Sampling and Modeling Nonlinearity [3.7080015862513847]
Local Interpretable Model-Agnostic Explanation (LIME) は、局所的な決定境界が線形であり、非線形の関係を捉えることができないと仮定する。
本稿では,高忠実度な説明を生成できる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-12-05T09:26:18Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Assessing Correctness in LLM-Based Code Generation via Uncertainty Estimation [0.0]
LLM生成符号の正確性のプロキシとして不確実性推定を検討する。
自然言語生成からコード生成領域への2つの最先端技術を適用する。
これらの手法を用いて計算した不確実性と正確性との間には強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T10:03:01Z) - Boosting Explainability through Selective Rationalization in Pre-trained Language Models [16.409817098221012]
自然言語処理(NLP)における事前学習言語モデル(PLM)の広範な適用により、その説明可能性に対する懸念が高まっている。
PLMに既存の合理化フレームワークを適用すると、深刻な退化と失敗の問題が起こり、準最適または無意味な合理性を生み出す。
本稿では, PLMをジェネレータと予測器に分割し, 解釈可能な有理性を提供しながら, NLPタスクに対処するPLMR(Pre-trained Language Model's Rationalization)法を提案する。
論文 参考訳(メタデータ) (2025-01-03T07:52:40Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - GLIME: General, Stable and Local LIME Explanation [11.002828804775392]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデル行動を理解するために広く用いられる手法である。
GLIMEは、LIMEを拡張し、いくつかの先行メソッドを統合する拡張フレームワークである。
局所的および非バイアスなサンプリング分布を用いることで、GLIMEはLIMEと比較して局所的忠実度の高い説明を生成する。
論文 参考訳(メタデータ) (2023-11-27T11:17:20Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。