論文の概要: Evaluating Readability and Faithfulness of Concept-based Explanations
- arxiv url: http://arxiv.org/abs/2404.18533v3
- Date: Fri, 04 Oct 2024 01:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:06:40.140733
- Title: Evaluating Readability and Faithfulness of Concept-based Explanations
- Title(参考訳): 概念に基づく説明の可読性と忠実性の評価
- Authors: Meng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang,
- Abstract要約: 概念に基づく説明は、大規模言語モデルによって学習された高レベルのパターンを説明するための有望な道として現れます。
現在の手法は、統一的な形式化を欠いた異なる視点から概念にアプローチする。
これにより、概念の中核となる尺度、すなわち忠実さや可読性を評価するのが難しくなります。
- 参考スコア(独自算出の注目度): 35.48852504832633
- License:
- Abstract: With the growing popularity of general-purpose Large Language Models (LLMs), comes a need for more global explanations of model behaviors. Concept-based explanations arise as a promising avenue for explaining high-level patterns learned by LLMs. Yet their evaluation poses unique challenges, especially due to their non-local nature and high dimensional representation in a model's hidden space. Current methods approach concepts from different perspectives, lacking a unified formalization. This makes evaluating the core measures of concepts, namely faithfulness or readability, challenging. To bridge the gap, we introduce a formal definition of concepts generalizing to diverse concept-based explanations' settings. Based on this, we quantify the faithfulness of a concept explanation via perturbation. We ensure adequate perturbation in the high-dimensional space for different concepts via an optimization problem. Readability is approximated via an automatic and deterministic measure, quantifying the coherence of patterns that maximally activate a concept while aligning with human understanding. Finally, based on measurement theory, we apply a meta-evaluation method for evaluating these measures, generalizable to other types of explanations or tasks as well. Extensive experimental analysis has been conducted to inform the selection of explanation evaluation measures.
- Abstract(参考訳): 汎用Large Language Models (LLMs) の人気が高まっているため、モデルビヘイビアのよりグローバルな説明が必要である。
概念に基づく説明は、LLMが学習した高レベルのパターンを説明するための有望な道として現れる。
しかし、それらの評価は、特に非局所的な性質とモデルの隠れた空間における高次元表現のために、ユニークな課題を生んでいる。
現在の手法は、統一的な形式化を欠いた異なる視点から概念にアプローチする。
これにより、概念の中核となる尺度、すなわち忠実さや可読性を評価するのが難しくなります。
このギャップを埋めるために、多様な概念に基づく説明の設定を一般化する概念の形式的定義を導入する。
これに基づいて、摂動による概念説明の忠実度を定量化する。
最適化問題により,高次元空間における様々な概念に対する適切な摂動を確保する。
可読性は、人間の理解と整合しながら、概念を最大限に活性化するパターンのコヒーレンスを定量化する、自動的かつ決定論的尺度によって近似される。
最後に、測定理論に基づいて、他の種類の説明やタスクにも一般化可能なメタ評価手法を適用する。
説明評価尺度の選択について, 総合的な実験分析を行った。
関連論文リスト
- Evidential Concept Embedding Models: Towards Reliable Concept Explanations for Skin Disease Diagnosis [24.946148305384202]
CBM(Concept Bottleneck Models)は、人間の解釈可能な概念を意思決定に取り入れた、アクティブな解釈可能なフレームワークとして登場した。
本研究では,概念の不確かさをモデル化するために明らかな学習を利用する概念埋め込みモデル(evi-CEM)を提案する。
本評価は,evi-CEMが概念予測において優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-06-27T12:29:50Z) - ConcEPT: Concept-Enhanced Pre-Training for Language Models [57.778895980999124]
ConcEPTは、概念知識を事前訓練された言語モデルに注入することを目的としている。
これは、事前訓練されたコンテキストで言及されたエンティティの概念を予測するために、外部エンティティの概念予測を利用する。
実験の結果,ConcEPTは概念強化事前学習により概念知識を向上することがわかった。
論文 参考訳(メタデータ) (2024-01-11T05:05:01Z) - Estimation of Concept Explanations Should be Uncertainty Aware [39.598213804572396]
概念説明(Concept Explanations)と呼ばれる特定の概念について研究し、人間の理解可能な概念を用いてモデルを解釈することを目的としている。
簡単な解釈で人気があるが、概念的な説明は騒々しいことが知られている。
本稿では,これらの問題に対処する不確実性を考慮したベイズ推定手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T11:17:27Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Towards Concept-Aware Large Language Models [56.48016300758356]
概念は、学習、推論、コミュニケーションなど、様々な人間の認知機能において重要な役割を果たす。
概念を形作り、推論する能力を持つ機械を授けることは、ほとんどない。
本研究では,現代における大規模言語モデル(LLM)が,人間の概念とその構造をどのように捉えているかを分析する。
論文 参考訳(メタデータ) (2023-11-03T12:19:22Z) - A Unified Concept-Based System for Local, Global, and Misclassification
Explanations [13.321794212377949]
地域概念とグローバル概念の両方を教師なしで学習するための統合された概念ベースシステムを提案する。
我々の主な目的は、代理説明ネットワークを訓練することで、各データカテゴリの根底にある本質的な概念を明らかにすることである。
我々のアプローチは、正確な予測と誤予測の両方を説明するのに役立ちます。
論文 参考訳(メタデータ) (2023-06-06T09:28:37Z) - Towards Robust Metrics for Concept Representation Evaluation [25.549961337814523]
概念学習モデルは、その表現に不純物を符号化する傾向があることが示されている。
両手法における概念表現の純度を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-01-25T00:40:19Z) - COPEN: Probing Conceptual Knowledge in Pre-trained Language Models [60.10147136876669]
概念的知識は人間の認知と知識基盤の基本である。
既存の知識探索作業は、事前訓練された言語モデル(PLM)の事実知識のみに焦点を当て、概念知識を無視する。
PLMが概念的類似性によってエンティティを編成し、概念的特性を学習し、コンテキスト内でエンティティを概念化するかどうかを調査する3つのタスクを設計する。
タスクのために、393のコンセプトをカバーする24kのデータインスタンスを収集、注釈付けします。
論文 参考訳(メタデータ) (2022-11-08T08:18:06Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。