論文の概要: Interpreting Pretrained Language Models via Concept Bottlenecks
- arxiv url: http://arxiv.org/abs/2311.05014v1
- Date: Wed, 8 Nov 2023 20:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:58:24.727194
- Title: Interpreting Pretrained Language Models via Concept Bottlenecks
- Title(参考訳): 概念ボトルネックによる事前学習言語モデルの解釈
- Authors: Zhen Tan, Lu Cheng, Song Wang, Yuan Bo, Jundong Li and Huan Liu
- Abstract要約: 事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 55.47515772358389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) have made significant strides in various
natural language processing tasks. However, the lack of interpretability due to
their ``black-box'' nature poses challenges for responsible implementation.
Although previous studies have attempted to improve interpretability by using,
e.g., attention weights in self-attention layers, these weights often lack
clarity, readability, and intuitiveness. In this research, we propose a novel
approach to interpreting PLMs by employing high-level, meaningful concepts that
are easily understandable for humans. For example, we learn the concept of
``Food'' and investigate how it influences the prediction of a model's
sentiment towards a restaurant review. We introduce C$^3$M, which combines
human-annotated and machine-generated concepts to extract hidden neurons
designed to encapsulate semantically meaningful and task-specific concepts.
Through empirical evaluations on real-world datasets, we manifest that our
approach offers valuable insights to interpret PLM behavior, helps diagnose
model failures, and enhances model robustness amidst noisy concept labels.
- Abstract(参考訳): プリトレーニング言語モデル(plm)は、様々な自然言語処理タスクにおいて大きな進歩を遂げた。
しかし、'black-box' の性質による解釈可能性の欠如は、責任ある実装に困難をもたらす。
従来の研究では、自己着脱層における注意重みなどを用いて解釈可能性の向上を試みたが、これらの重みはしばしば明快さ、可読性、直感性に欠ける。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
例えば、``food''の概念を学び、それがレストランレビューに対するモデルの感情の予測にどのように影響するかを調べます。
C$3$Mを導入し、人間アノテーションと機械生成の概念を組み合わせて、意味論的およびタスク固有の概念をカプセル化した隠れニューロンを抽出する。
実世界のデータセットに対する経験的評価を通じて、我々のアプローチは、PLMの振る舞いを解釈し、モデルの失敗を診断し、ノイズのある概念ラベルの中でモデルの堅牢性を高めるための貴重な洞察を提供することを示した。
関連論文リスト
- Self-supervised Interpretable Concept-based Models for Text Classification [9.340843984411137]
本稿では,自己教師型解釈可能な概念埋め込みモデル(ICEM)を提案する。
我々は,大規模言語モデルの一般化能力を活用し,概念ラベルを自己管理的に予測する。
ICEMは、完全に教師されたコンセプトベースモデルやエンドツーエンドのブラックボックスモデルと同じようなパフォーマンスを達成するために、自己管理的な方法でトレーニングすることができる。
論文 参考訳(メタデータ) (2024-06-20T14:04:53Z) - ConcEPT: Concept-Enhanced Pre-Training for Language Models [57.778895980999124]
ConcEPTは、概念知識を事前訓練された言語モデルに注入することを目的としている。
これは、事前訓練されたコンテキストで言及されたエンティティの概念を予測するために、外部エンティティの概念予測を利用する。
実験の結果,ConcEPTは概念強化事前学習により概念知識を向上することがわかった。
論文 参考訳(メタデータ) (2024-01-11T05:05:01Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Can LLMs facilitate interpretation of pre-trained language models? [18.77022630961142]
本稿では,事前学習した言語モデルの微粒な解釈分析を可能にするための注釈として,大規模な言語モデルChatGPTを提案する。
文脈的表現に集約的階層的クラスタリングを適用することにより,事前学習言語モデル内の潜在概念を発見する。
以上の結果から,ChatGPTは人間のアノテーションよりも正確で意味的にリッチなアノテーションを生成することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-22T18:03:13Z) - GlanceNets: Interpretabile, Leak-proof Concept-based Models [23.7625973884849]
概念ベースモデル(CBM)は、高レベルの概念の語彙の獲得と推論によって、ハイパフォーマンスと解釈可能性を組み合わせる。
我々は、モデル表現と基礎となるデータ生成プロセスとの整合性の観点から、解釈可能性を明確に定義する。
GlanceNetsは不整合表現学習とオープンセット認識の技法を利用してアライメントを実現する新しいCBMである。
論文 参考訳(メタデータ) (2022-05-31T08:53:53Z) - A Survey of Knowledge Enhanced Pre-trained Models [28.160826399552462]
知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(KEPLM)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
論文 参考訳(メタデータ) (2021-10-01T08:51:58Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。