Fugu-MT 論文翻訳(概要): Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models

論文の概要: Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models

arxiv url: http://arxiv.org/abs/2401.06102v1
Date: Thu, 11 Jan 2024 18:33:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 13:08:41.368168
Title: Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models
Title（参考訳）: Patchscope: 隠れた言語モデルの表現を検査するための統一フレームワーク
Authors: Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva
Abstract要約: 大きな言語モデル(LLM)の隠された表現に符号化された情報を検査する Patchscopesというフレームワークを導入し、幅広い研究課題にどのように答えられるかを示す。
参考スコア（独自算出の注目度）: 26.297184486552084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to explain its internal representations in natural language. We introduce a framework called Patchscopes and show how it can be used to answer a wide range of research questions about an LLM's computation. We show that prior interpretability methods based on projecting representations into the vocabulary space and intervening on the LLM computation, can be viewed as special instances of this framework. Moreover, several of their shortcomings such as failure in inspecting early layers or lack of expressivity can be mitigated by a Patchscope. Beyond unifying prior inspection techniques, Patchscopes also opens up new possibilities such as using a more capable model to explain the representations of a smaller model, and unlocks new applications such as self-correction in multi-hop reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)の隠れ表現に符号化された情報を検査することで、モデルの振る舞いを説明し、人間の値との整合性を検証することができる。人間の理解可能なテキストを生成する上でのLLMの能力を考えると、モデル自体を利用して自然言語の内部表現を説明する。我々は、Patchscopesと呼ばれるフレームワークを導入し、LLMの計算に関する幅広い研究課題にどのように答えられるかを示す。本稿では,このフレームワークの特別な例として,語彙空間への射影表現と LLM 計算の介入に基づく事前解釈可能性手法について述べる。さらに、初期層検査の失敗や表現力の欠如など、いくつかの欠点をパッチスコープによって緩和することができる。 Patchscopesは、事前検査技術を統一するだけでなく、より有能なモデルを使用してより小さなモデルの表現を説明し、マルチホップ推論における自己補正のような新しいアプリケーションをアンロックするといった新しい可能性も開きます。

関連論文リスト

Exploring the Hidden Reasoning Process of Large Language Models by Misleading Them [5.4908640334628345]
大規模言語モデル (LLM) とビジョン言語モデル (VLM) は様々な推論タスクを実行できる。我々は,LLM/VLMが抽象的推論を行うかどうかを調べるために,新しい実験手法であるMisleading Fine-Tuning(MisFT)を提案する。
論文参考訳（メタデータ） (2025-03-20T17:54:42Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Superscopes: Amplifying Internal Feature Representations for Language Model Interpretation [0.0]
モデルの特徴を新しいコンテキストに増幅する手法であるSuperscopesを紹介する。スーパースコープは、事前の手法が追加の訓練を必要とせずに全てを説明することができなかった内部表現の解釈を可能にする。このアプローチは、LLMがコンテキストを構築し、複雑な概念を表現する方法に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2025-03-03T21:58:12Z)
Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文参考訳（メタデータ） (2024-12-11T18:59:33Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
On the Tip of the Tongue: Analyzing Conceptual Representation in Large Language Models with Reverse-Dictionary Probe [36.65834065044746]
我々は、言語記述に暗示される対象概念の用語を生成するために、文脈内学習を用いてモデルを誘導する。実験結果から,逆ディファレンシャルタスクによって探索された概念推論能力は,モデルの一般的な推論性能を予測することが示唆された。
論文参考訳（メタデータ） (2024-02-22T09:45:26Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Competence-Based Analysis of Language Models [21.43498764977656]
CALM (Competence-based Analysis of Language Models) は、特定のタスクの文脈におけるLLM能力を調べるために設計された。我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。これらの介入を用いてCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行う。
論文参考訳（メタデータ） (2023-03-01T08:53:36Z)
Shapley Head Pruning: Identifying and Removing Interference in Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文参考訳（メタデータ） (2022-10-11T18:11:37Z)
Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文参考訳（メタデータ） (2022-02-21T18:32:24Z)
Foundations of Symbolic Languages for Model Interpretability [2.3361634876233817]
本稿では,2種類のMLモデル上でのFOILクエリの計算複雑性について検討する。本稿では,高レベルの宣言型言語でラップされたFOILのプロトタイプ実装について述べる。
論文参考訳（メタデータ） (2021-10-05T21:56:52Z)
General Pitfalls of Model-Agnostic Interpretation Methods for Machine Learning Models [1.025459377812322]
我々は、間違った文脈で解釈技術を使用するなど、機械学習モデル解釈の多くの一般的な落とし穴を強調した。平均モデル行動を記述するグローバルメソッドの落とし穴に注目するが、個々の予測を説明するローカルメソッドにも多くの落とし穴が適用される。
論文参考訳（メタデータ） (2020-07-08T14:02:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。