論文の概要: Explanations Go Linear: Interpretable and Individual Latent Encoding for Post-hoc Explainability
- arxiv url: http://arxiv.org/abs/2504.20667v1
- Date: Tue, 29 Apr 2025 11:46:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.873928
- Title: Explanations Go Linear: Interpretable and Individual Latent Encoding for Post-hoc Explainability
- Title(参考訳): 説明はリニアに:ポストホックな説明可能性のための解釈可能かつ個人潜在的エンコーディング
- Authors: Simone Piaggesi, Riccardo Guidotti, Fosca Giannotti, Dino Pedreschi,
- Abstract要約: ブラックボックス機械学習モデルを理解するためには、ポストホックな説明責任が不可欠である。
本稿では,表現学習を基盤としたフレキシブルかつ解釈可能なフレームワークであるILLUMEを提案する。
我々のアプローチは、グローバルに訓練されたサロゲートとインスタンス固有の線形変換をメタエンコーダと組み合わせて、局所的およびグローバルな説明を生成する。
- 参考スコア(独自算出の注目度): 8.96728156164206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-hoc explainability is essential for understanding black-box machine learning models. Surrogate-based techniques are widely used for local and global model-agnostic explanations but have significant limitations. Local surrogates capture non-linearities but are computationally expensive and sensitive to parameters, while global surrogates are more efficient but struggle with complex local behaviors. In this paper, we present ILLUME, a flexible and interpretable framework grounded in representation learning, that can be integrated with various surrogate models to provide explanations for any black-box classifier. Specifically, our approach combines a globally trained surrogate with instance-specific linear transformations learned with a meta-encoder to generate both local and global explanations. Through extensive empirical evaluations, we demonstrate the effectiveness of ILLUME in producing feature attributions and decision rules that are not only accurate but also robust and faithful to the black-box, thus providing a unified explanation framework that effectively addresses the limitations of traditional surrogate methods.
- Abstract(参考訳): ブラックボックス機械学習モデルを理解するためには、ポストホックな説明責任が不可欠である。
サロゲートに基づく手法は、局所的およびグローバルなモデルに依存しない説明に広く用いられているが、大きな制限がある。
局所サロゲートは非線型性を捉えるが、計算コストが高く、パラメータに敏感であるのに対し、グローバルサロゲートはより効率的だが複雑な局所的な振る舞いに苦しむ。
本稿では,表現学習を基盤としたフレキシブルかつ解釈可能なフレームワークであるILLUMEについて述べる。
具体的には、グローバルに訓練されたサロゲートとインスタンス固有の線形変換をメタエンコーダと組み合わせて、局所的およびグローバルな説明を生成する。
広範にわたる経験的評価を通じて,ブラックボックスに忠実かつ忠実な特徴属性と決定規則の生成におけるILLUMEの有効性を実証し,従来のサロゲート手法の限界に効果的に対処する統一的な説明枠組みを提供する。
関連論文リスト
- MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - PromptExp: Multi-granularity Prompt Explanation of Large Language Models [16.259208045898415]
PromptExpは,トークンレベルの洞察を集約することで,複数の粒度を自動生成するフレームワークである。
PromptExpは、ホワイトボックスとブラックボックスの説明の両方をサポートし、説明をより高い粒度レベルまで拡張する。
PromptExpを感情分析などのケーススタディで評価し,摂動に基づくアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T22:25:15Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - GLOBE-CE: A Translation-Based Approach for Global Counterfactual
Explanations [10.276136171459731]
Global & Efficient Counterfactual Explanations (GLOBE-CE)は、現在の最先端技術に関連する信頼性とスケーラビリティの問題に取り組む柔軟なフレームワークである。
分類的特徴翻訳を数学的に解析し,その手法を応用した。
公開データセットとユーザスタディによる実験的評価は、GLOBE-CEが現在の最先端よりも大幅にパフォーマンスが向上していることを示している。
論文 参考訳(メタデータ) (2023-05-26T15:26:59Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - ExSum: From Local Explanations to Model Understanding [6.23934576145261]
ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法を開発した。
この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。
本稿では,モデル理解の定量化のための数学的枠組みである説明要約(ExSum)を紹介する。
論文 参考訳(メタデータ) (2022-04-30T02:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。