論文の概要: Evaluating Readability and Faithfulness of Concept-based Explanations
- arxiv url: http://arxiv.org/abs/2404.18533v3
- Date: Fri, 04 Oct 2024 01:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:06:40.140733
- Title: Evaluating Readability and Faithfulness of Concept-based Explanations
- Title(参考訳): 概念に基づく説明の可読性と忠実性の評価
- Authors: Meng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang,
- Abstract要約: 概念に基づく説明は、大規模言語モデルによって学習された高レベルのパターンを説明するための有望な道として現れます。
現在の手法は、統一的な形式化を欠いた異なる視点から概念にアプローチする。
これにより、概念の中核となる尺度、すなわち忠実さや可読性を評価するのが難しくなります。
- 参考スコア(独自算出の注目度): 35.48852504832633
- License:
- Abstract: With the growing popularity of general-purpose Large Language Models (LLMs), comes a need for more global explanations of model behaviors. Concept-based explanations arise as a promising avenue for explaining high-level patterns learned by LLMs. Yet their evaluation poses unique challenges, especially due to their non-local nature and high dimensional representation in a model's hidden space. Current methods approach concepts from different perspectives, lacking a unified formalization. This makes evaluating the core measures of concepts, namely faithfulness or readability, challenging. To bridge the gap, we introduce a formal definition of concepts generalizing to diverse concept-based explanations' settings. Based on this, we quantify the faithfulness of a concept explanation via perturbation. We ensure adequate perturbation in the high-dimensional space for different concepts via an optimization problem. Readability is approximated via an automatic and deterministic measure, quantifying the coherence of patterns that maximally activate a concept while aligning with human understanding. Finally, based on measurement theory, we apply a meta-evaluation method for evaluating these measures, generalizable to other types of explanations or tasks as well. Extensive experimental analysis has been conducted to inform the selection of explanation evaluation measures.
- Abstract(参考訳): 汎用Large Language Models (LLMs) の人気が高まっているため、モデルビヘイビアのよりグローバルな説明が必要である。
概念に基づく説明は、LLMが学習した高レベルのパターンを説明するための有望な道として現れる。
しかし、それらの評価は、特に非局所的な性質とモデルの隠れた空間における高次元表現のために、ユニークな課題を生んでいる。
現在の手法は、統一的な形式化を欠いた異なる視点から概念にアプローチする。
これにより、概念の中核となる尺度、すなわち忠実さや可読性を評価するのが難しくなります。
このギャップを埋めるために、多様な概念に基づく説明の設定を一般化する概念の形式的定義を導入する。
これに基づいて、摂動による概念説明の忠実度を定量化する。
最適化問題により,高次元空間における様々な概念に対する適切な摂動を確保する。
可読性は、人間の理解と整合しながら、概念を最大限に活性化するパターンのコヒーレンスを定量化する、自動的かつ決定論的尺度によって近似される。
最後に、測定理論に基づいて、他の種類の説明やタスクにも一般化可能なメタ評価手法を適用する。
説明評価尺度の選択について, 総合的な実験分析を行った。
関連論文リスト
- Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - A survey on Concept-based Approaches For Model Improvement [2.1516043775965565]
概念は人間の思考基盤として知られている。
ディープニューラルネットワーク(DNN)における様々な概念表現とその発見アルゴリズムの体系的レビューと分類について述べる。
また,これらの手法を総合的に調査した最初の論文として,概念に基づくモデル改善文献について詳述する。
論文 参考訳(メタデータ) (2024-03-21T17:09:20Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - ConcEPT: Concept-Enhanced Pre-Training for Language Models [57.778895980999124]
ConcEPTは、概念知識を事前訓練された言語モデルに注入することを目的としている。
これは、事前訓練されたコンテキストで言及されたエンティティの概念を予測するために、外部エンティティの概念予測を利用する。
実験の結果,ConcEPTは概念強化事前学習により概念知識を向上することがわかった。
論文 参考訳(メタデータ) (2024-01-11T05:05:01Z) - Estimation of Concept Explanations Should be Uncertainty Aware [39.598213804572396]
概念説明(Concept Explanations)と呼ばれる特定の概念について研究し、人間の理解可能な概念を用いてモデルを解釈することを目的としている。
簡単な解釈で人気があるが、概念的な説明は騒々しいことが知られている。
本稿では,これらの問題に対処する不確実性を考慮したベイズ推定手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T11:17:27Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - A Unified Concept-Based System for Local, Global, and Misclassification
Explanations [13.321794212377949]
地域概念とグローバル概念の両方を教師なしで学習するための統合された概念ベースシステムを提案する。
我々の主な目的は、代理説明ネットワークを訓練することで、各データカテゴリの根底にある本質的な概念を明らかにすることである。
我々のアプローチは、正確な予測と誤予測の両方を説明するのに役立ちます。
論文 参考訳(メタデータ) (2023-06-06T09:28:37Z) - Multi-dimensional concept discovery (MCD): A unifying framework with
completeness guarantees [1.9465727478912072]
本稿では,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
より制約のある概念定義に対するMDDの優位性を実証的に実証する。
論文 参考訳(メタデータ) (2023-01-27T18:53:19Z) - Towards Robust Metrics for Concept Representation Evaluation [25.549961337814523]
概念学習モデルは、その表現に不純物を符号化する傾向があることが示されている。
両手法における概念表現の純度を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-01-25T00:40:19Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。