論文の概要: Interpretability is in the Mind of the Beholder: A Causal Framework for
Human-interpretable Representation Learning
- arxiv url: http://arxiv.org/abs/2309.07742v1
- Date: Thu, 14 Sep 2023 14:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:54:52.860606
- Title: Interpretability is in the Mind of the Beholder: A Causal Framework for
Human-interpretable Representation Learning
- Title(参考訳): 解釈可能性の考え方--人間解釈可能表現学習のための因果的枠組み
- Authors: Emanuele Marconato and Andrea Passerini and Stefano Teso
- Abstract要約: 説明可能なAIは、入力機能などの低レベル要素の観点から定義された説明から、データから学んだ解釈可能な概念でエンコードされた説明へとシフトしている。
しかし、そのような概念を確実に取得する方法は、基本的には不明確である。
ポストホックな説明器と概念に基づくニューラルネットワークの両方に適した解釈可能な表現を得るための数学的枠組みを提案する。
- 参考スコア(独自算出の注目度): 22.201878275784246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Focus in Explainable AI is shifting from explanations defined in terms of
low-level elements, such as input features, to explanations encoded in terms of
interpretable concepts learned from data. How to reliably acquire such concepts
is, however, still fundamentally unclear. An agreed-upon notion of concept
interpretability is missing, with the result that concepts used by both
post-hoc explainers and concept-based neural networks are acquired through a
variety of mutually incompatible strategies. Critically, most of these neglect
the human side of the problem: a representation is understandable only insofar
as it can be understood by the human at the receiving end. The key challenge in
Human-interpretable Representation Learning (HRL) is how to model and
operationalize this human element. In this work, we propose a mathematical
framework for acquiring interpretable representations suitable for both
post-hoc explainers and concept-based neural networks. Our formalization of HRL
builds on recent advances in causal representation learning and explicitly
models a human stakeholder as an external observer. This allows us to derive a
principled notion of alignment between the machine representation and the
vocabulary of concepts understood by the human. In doing so, we link alignment
and interpretability through a simple and intuitive name transfer game, and
clarify the relationship between alignment and a well-known property of
representations, namely disentanglment. We also show that alignment is linked
to the issue of undesirable correlations among concepts, also known as concept
leakage, and to content-style separation, all through a general
information-theoretic reformulation of these properties. Our conceptualization
aims to bridge the gap between the human and algorithmic sides of
interpretability and establish a stepping stone for new research on
human-interpretable representations.
- Abstract(参考訳): 説明可能なAIは、入力機能などの低レベル要素の観点から定義された説明から、データから学んだ解釈可能な概念でエンコードされた説明へとシフトしている。
しかし、そのような概念を確実に取得する方法は、基本的には不明確である。
概念解釈可能性の合意された概念が欠落しており、ポストホックな説明と概念ベースのニューラルネットワークの両方で使われる概念は、様々な相互に互換性のない戦略によって獲得される。
批判的に、これらのほとんどが問題の人間側を無視している: 表現は、受信側において人間が理解できる限り、理解可能である。
human-interpretable representation learning(hrl)における重要な課題は、このヒューマン要素をモデル化し、運用する方法である。
本研究では,ポストホックな説明と概念に基づくニューラルネットワークの両方に適した解釈可能な表現を得るための数学的枠組みを提案する。
hrlの形式化は,近年の因果表現学習の進歩を基盤としており,人間の利害関係者を外部オブザーバとして明示的にモデル化している。
これにより、機械表現と人間が理解する概念の語彙のアライメントの原理的な概念を導出することができる。
その際、単純な直感的な名前転送ゲームを通じてアライメントと解釈可能性を結び、アライメントとよく知られた表現の性質、すなわち不一致の関係を明らかにする。
また,アライメントは,概念漏洩(concept leak)として知られる概念間の望ましくない相関問題や,コンテンツスタイルの分離問題と関連していることを示す。
概念化は,人間とアルゴリズム間の解釈可能性のギャップを橋渡しし,人間解釈可能表現の新しい研究の足場を確立することを目的としている。
関連論文リスト
- Concept Induction using LLMs: a user experiment for assessment [1.1982127665424676]
本研究では,人間に対する説明として意味のある高レベルな概念を生成するために,LLM(Large Language Model)の可能性を探る。
我々は、LLMによって生成された概念を、人間によって生成された概念とECII概念誘導システムという、他の2つの方法と比較する。
人為的な説明は依然として優れているが, GPT-4 から派生した概念は, ECII が生成した概念よりも人間にとって理解しやすいことが示唆された。
論文 参考訳(メタデータ) (2024-04-18T03:22:02Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Explaining Explainability: Towards Deeper Actionable Insights into Deep
Learning through Second-order Explainability [70.60433013657693]
2階説明可能なAI(SOXAI)は、最近インスタンスレベルからデータセットレベルまで説明可能なAI(XAI)を拡張するために提案されている。
そこで本研究では,SOXAIの動作可能な洞察に基づくトレーニングセットから無関係な概念を除外することで,モデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T23:24:01Z) - Vector-based Representation is the Key: A Study on Disentanglement and
Compositional Generalization [77.57425909520167]
良質な概念認識と斬新な概念構成を両立させることが可能であることを示す。
本研究では,スカラーベース・アンタングル化作業のベクトルベース化を図り,両機能を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-05-29T13:05:15Z) - Interpretable Neural-Symbolic Concept Reasoning [7.1904050674791185]
概念に基づくモデルは、人間の理解可能な概念のセットに基づいてタスクを学習することでこの問題に対処することを目的としている。
本稿では,概念埋め込みに基づく最初の解釈可能な概念ベースモデルであるDeep Concept Reasoner (DCR)を提案する。
論文 参考訳(メタデータ) (2023-04-27T09:58:15Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - Human-Centered Concept Explanations for Neural Networks [47.71169918421306]
概念活性化ベクトル(Concept Activation Vectors, CAV)のクラスを含む概念的説明を紹介する。
次に、自動的に概念を抽出するアプローチと、それらの注意事項に対処するアプローチについて議論する。
最後に、このような概念に基づく説明が、合成設定や実世界の応用において有用であることを示すケーススタディについて論じる。
論文 参考訳(メタデータ) (2022-02-25T01:27:31Z) - Explainability Is in the Mind of the Beholder: Establishing the
Foundations of Explainable Artificial Intelligence [11.472707084860875]
我々は、背景知識に基づいて解釈された透明な洞察(ブラックボックス)に適用する(論理的)推論として説明可能性を定義する。
我々は、透明性と予測力のトレードオフを再考し、アンテホックやポストホックの解説者への影響について述べる。
我々は、人間中心の説明可能性からさまざまなアイデアに基づいて、解釈可能性を必要とするかもしれない機械学習ワークフローのコンポーネントについて論じる。
論文 参考訳(メタデータ) (2021-12-29T09:21:33Z) - Compositional Processing Emerges in Neural Networks Solving Math
Problems [100.80518350845668]
人工知能の最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、文法構造が表現に現れることを示している。
我々は、この研究を数学的推論の領域にまで拡張し、どのように意味を構成するべきかについての正確な仮説を定式化することができる。
私たちの研究は、ニューラルネットワークがトレーニングデータに暗黙的に構造化された関係について何かを推測できるだけでなく、個々の意味の合成を合成全体へと導くために、この知識を展開できることを示している。
論文 参考訳(メタデータ) (2021-05-19T07:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。