論文の概要: Linearly-Interpretable Concept Embedding Models for Text Analysis
- arxiv url: http://arxiv.org/abs/2406.14335v2
- Date: Wed, 16 Jul 2025 14:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:10.978698
- Title: Linearly-Interpretable Concept Embedding Models for Text Analysis
- Title(参考訳): テキスト解析のための線形解釈可能な概念埋め込みモデル
- Authors: Francesco De Santis, Philippe Bich, Gabriele Ciravegna, Pietro Barbiero, Danilo Giordano, Tania Cerquitelli,
- Abstract要約: 線形解釈可能な概念埋め込みモデル(licEM)を提案する。
licEMs分類精度は既存の解釈可能なモデルよりも優れており、ブラックボックスモデルと一致する。
私たちのモデルが提供する説明は、既存のソリューションに対してより介入可能であり、慎重に整合していることを示します。
- 参考スコア(独自算出の注目度): 9.340843984411137
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite their success, Large-Language Models (LLMs) still face criticism due to their lack of interpretability. Traditional post-hoc interpretation methods, based on attention and gradient-based analysis, offer limited insights as they only approximate the model's decision-making processes and have been proved to be unreliable. For this reason, Concept-Bottleneck Models (CBMs) have been lately proposed in the textual field to provide interpretable predictions based on human-understandable concepts. However, CBMs still exhibit several limitations due to their architectural constraints limiting their expressivity, to the absence of task-interpretability when employing non-linear task predictors and for requiring extensive annotations that are impractical for real-world text data. In this paper, we address these challenges by proposing a novel Linearly Interpretable Concept Embedding Model (LICEM) going beyond the current accuracy-interpretability trade-off. LICEMs classification accuracy is better than existing interpretable models and matches black-box ones. We show that the explanations provided by our models are more interveneable and causally consistent with respect to existing solutions. Finally, we show that LICEMs can be trained without requiring any concept supervision, as concepts can be automatically predicted when using an LLM backbone.
- Abstract(参考訳): 彼らの成功にもかかわらず、Large-Language Models (LLMs) は解釈可能性の欠如から批判を受け続けている。
従来のポストホック解釈法は、注意力と勾配に基づく分析に基づいて、モデルの意思決定過程を近似するだけで、信頼できないことが証明されたため、限られた洞察を提供する。
このため、近年、人間に理解可能な概念に基づく解釈可能な予測を提供するために、テキスト分野において概念-ブートネックモデル (CBM) が提案されている。
しかし、CBMは、その表現性を制限するアーキテクチャ上の制約、非線形タスク予測器を用いた場合のタスク解釈可能性の欠如、現実世界のテキストデータには実用的でない広範囲なアノテーションを必要とするため、いくつかの制限がある。
本稿では,新しい線形解釈可能な概念埋め込みモデル(licEM)を提案することにより,これらの課題に対処する。
licEMs分類精度は既存の解釈可能なモデルよりも優れており、ブラックボックスモデルと一致する。
私たちのモデルが提供する説明は、既存のソリューションに対してより介入可能であり、慎重に整合していることを示します。
最後に,LLMバックボーンを使用すれば,概念を自動予測できるので,概念管理を必要とせずに,licEMをトレーニングすることができることを示す。
関連論文リスト
- Investigating the Duality of Interpretability and Explainability in Machine Learning [2.8311451575532156]
複雑な「ブラックボックス」モデルは異常な予測性能を示す。
その本質的に不透明な性質は、透明性と解釈可能性に関する懸念を提起する。
本質的に解釈可能なモデルを開発するのではなく、これらのモデルを説明することに注力しています。
論文 参考訳(メタデータ) (2025-03-27T10:48:40Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Concept Layers: Enhancing Interpretability and Intervenability via LLM Conceptualization [2.163881720692685]
本稿では,概念層をアーキテクチャに組み込むことにより,解釈可能性とインターベンタビリティを既存モデルに組み込む新しい手法を提案する。
我々のアプローチは、モデルの内部ベクトル表現を、再構成してモデルにフィードバックする前に、概念的で説明可能なベクトル空間に投影する。
複数のタスクにまたがるCLを評価し、本来のモデルの性能と合意を維持しつつ、意味のある介入を可能にしていることを示す。
論文 参考訳(メタデータ) (2025-02-19T11:10:19Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Interpreting and Controlling Vision Foundation Models via Text
Explanations [45.30541722925515]
本稿では,視覚変換器の潜在トークンを自然言語で解釈するフレームワークを提案する。
我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルの視覚的推論手順の理解を可能にする。
論文 参考訳(メタデータ) (2023-10-16T17:12:06Z) - Learning Transferable Conceptual Prototypes for Interpretable
Unsupervised Domain Adaptation [79.22678026708134]
本稿では,Transferable Prototype Learning (TCPL) という,本質的に解釈可能な手法を提案する。
この目的を達成するために、ソースドメインからターゲットドメインにカテゴリの基本概念を転送する階層的なプロトタイプモジュールを設計し、基礎となる推論プロセスを説明するためにドメイン共有プロトタイプを学習する。
総合的な実験により,提案手法は有効かつ直感的な説明を提供するだけでなく,従来の最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-12T06:36:41Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - Robust Semantic Interpretability: Revisiting Concept Activation Vectors [0.0]
画像分類のための解釈可能性手法は、モデルが系統的に偏りがあるか、あるいは人間と同じ手掛かりに従うかを明らかにすることを試みる。
提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。
論文 参考訳(メタデータ) (2021-04-06T20:14:59Z) - Understanding Interpretability by generalized distillation in Supervised
Classification [3.5473853445215897]
最近の解釈戦略は、複雑な機械学習モデルの根底にある決定メカニズムの人間の理解に焦点を当てている。
本稿では,他のMLモデルと相対的に定義される解釈・蒸留式を提案する。
MNIST、Fashion-MNIST、Stanford40データセットに関する提案フレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-12-05T17:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。