論文の概要: Rigorously Assessing Natural Language Explanations of Neurons
- arxiv url: http://arxiv.org/abs/2309.10312v1
- Date: Tue, 19 Sep 2023 04:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 16:27:21.563129
- Title: Rigorously Assessing Natural Language Explanations of Neurons
- Title(参考訳): ニューロンの自然言語説明を厳格に評価する
- Authors: Jing Huang, Atticus Geiger, Karel D'Oosterlinck, Zhengxuan Wu,
Christopher Potts
- Abstract要約: 我々は、個々のニューロンがテキスト入力における概念を表現していると主張する自然言語説明のための2つの評価方法を開発した。
もっとも確実な説明でさえ高い誤り率を持ち,因果効果がほとんどないことを示す。
- 参考スコア(独自算出の注目度): 32.69846984626921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language is an appealing medium for explaining how large language
models process and store information, but evaluating the faithfulness of such
explanations is challenging. To help address this, we develop two modes of
evaluation for natural language explanations that claim individual neurons
represent a concept in a text input. In the observational mode, we evaluate
claims that a neuron $a$ activates on all and only input strings that refer to
a concept picked out by the proposed explanation $E$. In the intervention mode,
we construe $E$ as a claim that the neuron $a$ is a causal mediator of the
concept denoted by $E$. We apply our framework to the GPT-4-generated
explanations of GPT-2 XL neurons of Bills et al. (2023) and show that even the
most confident explanations have high error rates and little to no causal
efficacy. We close the paper by critically assessing whether natural language
is a good choice for explanations and whether neurons are the best level of
analysis.
- Abstract(参考訳): 自然言語は、大規模言語モデルがどのように情報を処理し保存するかを説明する魅力的な媒体であるが、そのような説明の忠実性を評価することは困難である。
そこで本研究では,個々のニューロンがテキスト入力における概念を表すと主張する自然言語説明に対する2つの評価方法を開発した。
観察モードでは、ニューロン$a$が全ての入力文字列で活性化され、提案された説明によって選択された概念を参照する。
介入モードでは、ニューロン $a$ が $e$ で表される概念の因果的仲介者であるという主張として $e$ を仮定する。
我々は,GPT-4によるBillsら(2023)のGPT-2 XLニューロンの説明に適用し,最も自信のある説明でも高い誤り率と因果効果はほとんどないことを示す。
我々は、自然言語が説明に良い選択であるかどうか、ニューロンが分析の最高のレベルであるかどうかを批判的に評価することで、論文を閉じる。
関連論文リスト
- The Importance of Prompt Tuning for Automated Neuron Explanations [12.187092570405557]
説明文の生成に使用するプロンプトの効果を分析し,より自然な方法で説明文を再構成することで,ニューロンの説明文の質が著しく向上することを示す。
我々は,新しいプロンプトの効果を3つの異なる方法で示し,自動評価と人的評価の両方を取り入れた。
論文 参考訳(メタデータ) (2023-10-09T23:02:07Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Language Models as Inductive Reasoners [125.99461874008703]
本稿では,帰納的推論のための新しいパラダイム(タスク)を提案し,自然言語の事実から自然言語規則を誘導する。
タスクのための1.2kルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。
我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文 参考訳(メタデータ) (2022-12-21T11:12:14Z) - NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning [59.16962123636579]
本稿では,Prologベースの推論エンジンを新たに提案する。
我々は手作りのルールを、ニューラルネットワークモデリング、ガイド付き生成、半密検索の組み合わせで置き換える。
我々の実装であるNELLIEは、完全に解釈可能なエンドツーエンドの基底QAを示す最初のシステムである。
論文 参考訳(メタデータ) (2022-09-16T00:54:44Z) - A Neural-Symbolic Approach to Natural Language Understanding [12.752124450670602]
我々はニューラルシンボリックプロセッサ(NSP)と呼ばれるNLUの新しいフレームワークを提案する。
NSPは、ニューラル処理に基づいてアナログ推論を行い、ニューラル処理とシンボリック処理の両方に基づいて論理推論を行う。
ケーススタディとして、質問応答(QA)と自然言語推論(NLI)という2つのNLUタスクの実験を行った。
論文 参考訳(メタデータ) (2022-03-20T14:12:44Z) - Explanatory Paradigms in Neural Networks [18.32369721322249]
本稿では、推論に基づく質問に対する解答として説明を考慮し、ニューラルネットワークにおける説明可能性の研究に飛躍的に拡張する。
これらの質問に対する回答は, それぞれ, 相関, 反事実, 対照的な説明である。
この用語は、訓練されたニューラルネットワークが決定を下した後に、説明的手法が$P$を説明したとき、ホック後の説明可能性の特定のケースを指す。
論文 参考訳(メタデータ) (2022-02-24T00:22:11Z) - Towards Interpretable Natural Language Understanding with Explanations
as Latent Variables [146.83882632854485]
そこで本研究では,人間に注釈付き説明文の小さなセットだけを必要とする自然言語理解の枠組みを構築した。
我々のフレームワークは、ニューラルネットワークの基本的な推論過程をモデル化する潜在変数として、自然言語の説明を扱う。
論文 参考訳(メタデータ) (2020-10-24T02:05:56Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。