論文の概要: Evaluating Readability and Faithfulness of Concept-based Explanations
- arxiv url: http://arxiv.org/abs/2404.18533v1
- Date: Mon, 29 Apr 2024 09:20:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 14:17:13.831036
- Title: Evaluating Readability and Faithfulness of Concept-based Explanations
- Title(参考訳): 概念に基づく説明の可読性と忠実性の評価
- Authors: Meng Li, Haoran Jin, Ruixuan Huang, Zhihao Xu, Defu Lian, Zijia Lin, Di Zhang, Xiting Wang,
- Abstract要約: 多様な概念に基づく説明に一般化可能な概念の形式的定義を導入する。
摂動時の出力差による忠実度を定量化する。
次に、概念を最大限に活性化するパターンのコヒーレンスを測定することにより、可読性の自動測定を行う。
- 参考スコア(独自算出の注目度): 35.48852504832633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the surprisingly high intelligence exhibited by Large Language Models (LLMs), we are somehow intimidated to fully deploy them into real-life applications considering their black-box nature. Concept-based explanations arise as a promising avenue for explaining what the LLMs have learned, making them more transparent to humans. However, current evaluations for concepts tend to be heuristic and non-deterministic, e.g. case study or human evaluation, hindering the development of the field. To bridge the gap, we approach concept-based explanation evaluation via faithfulness and readability. We first introduce a formal definition of concept generalizable to diverse concept-based explanations. Based on this, we quantify faithfulness via the difference in the output upon perturbation. We then provide an automatic measure for readability, by measuring the coherence of patterns that maximally activate a concept. This measure serves as a cost-effective and reliable substitute for human evaluation. Finally, based on measurement theory, we describe a meta-evaluation method for evaluating the above measures via reliability and validity, which can be generalized to other tasks as well. Extensive experimental analysis has been conducted to validate and inform the selection of concept evaluation measures.
- Abstract(参考訳): LLM(Large Language Models)による驚くほど高いインテリジェンスにもかかわらず、私たちはブラックボックスの性質を考慮して、それらを現実のアプリケーションに完全にデプロイすることを脅かしています。
概念に基づく説明は、LSMが学んだことを説明するための有望な道として生まれ、人間にとってより透明になる。
しかしながら、現在の概念評価はヒューリスティックで非決定論的であり、例えば、ケーススタディや人間の評価は、この分野の発展を妨げる傾向にある。
ギャップを埋めるために,信頼と可読性による概念に基づく説明評価にアプローチする。
まず、多種多様な概念に基づく説明に一般化可能な概念の形式的定義を導入する。
これに基づいて、摂動時の出力差による忠実度を定量化する。
次に、概念を最大限に活性化するパターンのコヒーレンスを測定することにより、可読性の自動測定を行う。
この措置は、費用対効果が高く信頼性の高い人的評価の代用として機能する。
最後に, 測定理論に基づいて, 信頼性と妥当性による評価を行うメタ評価手法について述べる。
概念評価尺度の選択を検証し, 通知するために, 広範囲にわたる実験分析を行った。
関連論文リスト
- Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - A survey on Concept-based Approaches For Model Improvement [2.1516043775965565]
概念は人間の思考基盤として知られている。
ディープニューラルネットワーク(DNN)における様々な概念表現とその発見アルゴリズムの体系的レビューと分類について述べる。
また,これらの手法を総合的に調査した最初の論文として,概念に基づくモデル改善文献について詳述する。
論文 参考訳(メタデータ) (2024-03-21T17:09:20Z) - An Axiomatic Approach to Model-Agnostic Concept Explanations [67.84000759813435]
本稿では、線形性、再帰性、類似性という3つの自然な公理を満たす概念的説明へのアプローチを提案する。
次に、従来の概念的説明手法とのつながりを確立し、それらの意味の異なる意味についての洞察を提供する。
論文 参考訳(メタデータ) (2024-01-12T20:53:35Z) - ConcEPT: Concept-Enhanced Pre-Training for Language Models [57.778895980999124]
ConcEPTは、概念知識を事前訓練された言語モデルに注入することを目的としている。
これは、事前訓練されたコンテキストで言及されたエンティティの概念を予測するために、外部エンティティの概念予測を利用する。
実験の結果,ConcEPTは概念強化事前学習により概念知識を向上することがわかった。
論文 参考訳(メタデータ) (2024-01-11T05:05:01Z) - Estimation of Concept Explanations Should be Uncertainty Aware [39.598213804572396]
概念説明(Concept Explanations)と呼ばれる特定の概念について研究し、人間の理解可能な概念を用いてモデルを解釈することを目的としている。
簡単な解釈で人気があるが、概念的な説明は騒々しいことが知られている。
本稿では,これらの問題に対処する不確実性を考慮したベイズ推定手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T11:17:27Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - A Unified Concept-Based System for Local, Global, and Misclassification
Explanations [13.321794212377949]
地域概念とグローバル概念の両方を教師なしで学習するための統合された概念ベースシステムを提案する。
我々の主な目的は、代理説明ネットワークを訓練することで、各データカテゴリの根底にある本質的な概念を明らかにすることである。
我々のアプローチは、正確な予測と誤予測の両方を説明するのに役立ちます。
論文 参考訳(メタデータ) (2023-06-06T09:28:37Z) - Multi-dimensional concept discovery (MCD): A unifying framework with
completeness guarantees [1.9465727478912072]
本稿では,概念レベルの完全性関係を満たす従来のアプローチの拡張として,多次元概念発見(MCD)を提案する。
より制約のある概念定義に対するMDDの優位性を実証的に実証する。
論文 参考訳(メタデータ) (2023-01-27T18:53:19Z) - Towards Robust Metrics for Concept Representation Evaluation [25.549961337814523]
概念学習モデルは、その表現に不純物を符号化する傾向があることが示されている。
両手法における概念表現の純度を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-01-25T00:40:19Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。