論文の概要: Applied Explainability for Large Language Models: A Comparative Study
- arxiv url: http://arxiv.org/abs/2604.15371v1
- Date: Wed, 15 Apr 2026 13:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.561312
- Title: Applied Explainability for Large Language Models: A Comparative Study
- Title(参考訳): 大規模言語モデルに対する応用説明可能性:比較研究
- Authors: Venkata Abhinandan Kancharla,
- Abstract要約: 本稿では,統合グラディエント,アテンションロールアウト,SHAPの3つの説明可能性技術の比較を行った。
その結果、勾配に基づく帰属はより安定で直感的な説明を提供することが示された。
作業は説明可能性メソッド間の重要なトレードオフを強調し、決定的な説明よりも診断ツールとしての役割を強調します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve strong performance across many natural language processing tasks, yet their decision processes remain difficult to interpret. This lack of transparency creates challenges for trust, debugging, and deployment in real-world systems. This paper presents an applied comparative study of three explainability techniques: Integrated Gradients, Attention Rollout, and SHAP, on a fine-tuned DistilBERT model for SST-2 sentiment classification. Rather than proposing new methods, the focus is on evaluating the practical behavior of existing approaches under a consistent and reproducible setup. The results show that gradient-based attribution provides more stable and intuitive explanations, while attention-based methods are computationally efficient but less aligned with prediction-relevant features. Model-agnostic approaches offer flexibility but introduce higher computational cost and variability. This work highlights key trade-offs between explainability methods and emphasizes their role as diagnostic tools rather than definitive explanations. The findings provide practical insights for researchers and engineers working with transformer-based NLP systems. This is a preprint and has not undergone peer review.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて高い性能を達成するが、その決定プロセスは解釈が難しいままである。
この透明性の欠如は、現実のシステムにおける信頼、デバッグ、デプロイメントの課題を生み出します。
本稿では、SST-2感情分類のための微調整DistilBERTモデルにおいて、統合的グラディエント、注意ロールアウト、SHAPの3つの説明可能性技術の比較研究を行った。
新しい手法を提案するのではなく、一貫した再現可能な設定の下で既存のアプローチの実践的な振る舞いを評価することに焦点を当てている。
その結果、勾配に基づく帰属はより安定的で直感的な説明を提供する一方で、注意に基づく手法は計算効率は良いが、予測関連の特徴と一致しないことがわかった。
モデルに依存しないアプローチは柔軟性を提供するが、より高い計算コストと可変性をもたらす。
この研究は、説明可能性メソッド間の重要なトレードオフを強調し、決定的な説明よりも診断ツールとしての役割を強調します。
この発見は、トランスフォーマーベースのNLPシステムを扱う研究者やエンジニアに実践的な洞察を与える。
これはプレプリントであり、ピアレビューを受けていない。
関連論文リスト
- Towards Intrinsic Interpretability of Large Language Models:A Survey of Design Principles and Architectures [37.785583281358875]
モデルアーキテクチャや計算に直接透過性を構築する本質的な解釈可能性(Intrinsic Interpretability)は、有望な代替手段として現れている。
本稿では,大規模言語モデルにおける内在的解釈可能性の最近の進歩を体系的に概観する。
論文 参考訳(メタデータ) (2026-04-17T13:15:46Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Evaluating Generalization and Representation Stability in Small LMs via Prompting, Fine-Tuning and Out-of-Distribution Prompts [2.377892000761193]
本稿では,小型言語モデルの2つの適応パラダイムに基づく一般化能力について検討する。
本研究は,小モデルが適応戦略の異なる知識を内在化し,一般化する過程において,重要な違いを呈するものである。
論文 参考訳(メタデータ) (2025-06-16T01:44:26Z) - How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールである
この研究において、我々はこの概念に挑戦する経験的証拠を提示する。
トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2025-03-01T22:25:11Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。