論文の概要: Patchscopes: A Unifying Framework for Inspecting Hidden Representations
of Language Models
- arxiv url: http://arxiv.org/abs/2401.06102v2
- Date: Fri, 12 Jan 2024 17:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:17:22.435763
- Title: Patchscopes: A Unifying Framework for Inspecting Hidden Representations
of Language Models
- Title(参考訳): Patchscopes: 隠れた言語モデルの表現を検査するための統一フレームワーク
- Authors: Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
- Abstract要約: 我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
本稿では,言語空間への射影表現と LLM への介入に基づく事前解釈可能性の手法を,このフレームワークの例と見なせることを示す。
Patchscopesは、事前検査のテクニックを統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明するなど、新たな可能性も開けている。
- 参考スコア(独自算出の注目度): 26.297184486552084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspecting the information encoded in hidden representations of large
language models (LLMs) can explain models' behavior and verify their alignment
with human values. Given the capabilities of LLMs in generating
human-understandable text, we propose leveraging the model itself to explain
its internal representations in natural language. We introduce a framework
called Patchscopes and show how it can be used to answer a wide range of
questions about an LLM's computation. We show that prior interpretability
methods based on projecting representations into the vocabulary space and
intervening on the LLM computation can be viewed as instances of this
framework. Moreover, several of their shortcomings such as failure in
inspecting early layers or lack of expressivity can be mitigated by
Patchscopes. Beyond unifying prior inspection techniques, Patchscopes also
opens up new possibilities such as using a more capable model to explain the
representations of a smaller model, and unlocks new applications such as
self-correction in multi-hop reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の隠れ表現に符号化された情報を検査することで、モデルの振る舞いを説明し、人間の値との整合性を検証することができる。
人間の理解可能なテキストを生成する上でのLLMの能力を考えると、モデル自体を利用して自然言語の内部表現を説明する。
我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い疑問にどのように答えられるかを示す。
語彙空間への表現の投影とllm計算への干渉に基づく事前解釈可能性の手法は,このフレームワークの例と見なすことができる。
さらに、早期検査の失敗や表現力の欠如といったいくつかの欠点は、パッチスコープによって軽減できる。
Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明し、マルチホップ推論における自己補正のような新しいアプリケーションをアンロックするといった新しい可能性も開きます。
関連論文リスト
- Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - On the Tip of the Tongue: Analyzing Conceptual Representation in Large
Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。
実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文 参考訳(メタデータ) (2024-02-22T09:45:26Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Foundations of Symbolic Languages for Model Interpretability [2.3361634876233817]
本稿では,2種類のMLモデル上でのFOILクエリの計算複雑性について検討する。
本稿では,高レベルの宣言型言語でラップされたFOILのプロトタイプ実装について述べる。
論文 参考訳(メタデータ) (2021-10-05T21:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。