論文の概要: Patchscope: A Unifying Framework for Inspecting Hidden Representations
of Language Models
- arxiv url: http://arxiv.org/abs/2401.06102v1
- Date: Thu, 11 Jan 2024 18:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:08:41.368168
- Title: Patchscope: A Unifying Framework for Inspecting Hidden Representations
of Language Models
- Title(参考訳): Patchscope: 隠れた言語モデルの表現を検査するための統一フレームワーク
- Authors: Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
- Abstract要約: 大きな言語モデル(LLM)の隠された表現に符号化された情報を検査する
Patchscopesというフレームワークを導入し、幅広い研究課題にどのように答えられるかを示す。
- 参考スコア(独自算出の注目度): 26.297184486552084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspecting the information encoded in hidden representations of large
language models (LLMs) can explain models' behavior and verify their alignment
with human values. Given the capabilities of LLMs in generating
human-understandable text, we propose leveraging the model itself to explain
its internal representations in natural language. We introduce a framework
called Patchscopes and show how it can be used to answer a wide range of
research questions about an LLM's computation. We show that prior
interpretability methods based on projecting representations into the
vocabulary space and intervening on the LLM computation, can be viewed as
special instances of this framework. Moreover, several of their shortcomings
such as failure in inspecting early layers or lack of expressivity can be
mitigated by a Patchscope. Beyond unifying prior inspection techniques,
Patchscopes also opens up new possibilities such as using a more capable model
to explain the representations of a smaller model, and unlocks new applications
such as self-correction in multi-hop reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の隠れ表現に符号化された情報を検査することで、モデルの振る舞いを説明し、人間の値との整合性を検証することができる。
人間の理解可能なテキストを生成する上でのLLMの能力を考えると、モデル自体を利用して自然言語の内部表現を説明する。
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い研究課題にどのように答えられるかを示す。
本稿では,このフレームワークの特別な例として,語彙空間への射影表現と LLM 計算の介入に基づく事前解釈可能性手法について述べる。
さらに、初期層検査の失敗や表現力の欠如など、いくつかの欠点をパッチスコープによって緩和することができる。
Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明し、マルチホップ推論における自己補正のような新しいアプリケーションをアンロックするといった新しい可能性も開きます。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - On the Tip of the Tongue: Analyzing Conceptual Representation in Large
Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。
実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文 参考訳(メタデータ) (2024-02-22T09:45:26Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Foundations of Symbolic Languages for Model Interpretability [2.3361634876233817]
本稿では,2種類のMLモデル上でのFOILクエリの計算複雑性について検討する。
本稿では,高レベルの宣言型言語でラップされたFOILのプロトタイプ実装について述べる。
論文 参考訳(メタデータ) (2021-10-05T21:56:52Z) - General Pitfalls of Model-Agnostic Interpretation Methods for Machine
Learning Models [1.025459377812322]
我々は、間違った文脈で解釈技術を使用するなど、機械学習モデル解釈の多くの一般的な落とし穴を強調した。
平均モデル行動を記述するグローバルメソッドの落とし穴に注目するが、個々の予測を説明するローカルメソッドにも多くの落とし穴が適用される。
論文 参考訳(メタデータ) (2020-07-08T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。