論文の概要: Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small
- arxiv url: http://arxiv.org/abs/2211.00593v1
- Date: Tue, 1 Nov 2022 17:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 12:39:16.144531
- Title: Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small
- Title(参考訳): 野生における解釈可能性:GPT-2小種の間接物体識別回路
- Authors: Kevin Wang, Alexandre Variengien, Arthur Conmy, Buck Shlegeris and
Jacob Steinhardt
- Abstract要約: 間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
- 参考スコア(独自算出の注目度): 68.879023473838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in mechanistic interpretability seeks to explain behaviors of
machine learning models in terms of their internal components. However, most
previous work either focuses on simple behaviors in small models, or describes
complicated behaviors in larger models with broad strokes. In this work, we
bridge this gap by presenting an explanation for how GPT-2 small performs a
natural language task called indirect object identification (IOI). Our
explanation encompasses 26 attention heads grouped into 7 main classes, which
we discovered using a combination of interpretability approaches relying on
causal interventions. To our knowledge, this investigation is the largest
end-to-end attempt at reverse-engineering a natural behavior "in the wild" in a
language model. We evaluate the reliability of our explanation using three
quantitative criteria--faithfulness, completeness and minimality. Though these
criteria support our explanation, they also point to remaining gaps in our
understanding. Our work provides evidence that a mechanistic understanding of
large ML models is feasible, opening opportunities to scale our understanding
to both larger models and more complex tasks.
- Abstract(参考訳): 機械的解釈可能性の研究は、内部コンポーネントの観点から機械学習モデルの振る舞いを説明することを目指している。
しかし、ほとんどの以前の研究は、小さなモデルにおける単純な振る舞いにフォーカスするか、より広いストロークを持つ大きなモデルで複雑な振る舞いを記述するかのどちらかである。
本稿では,このギャップを,間接オブジェクト識別 (IOI) と呼ばれる自然言語処理をGPT-2小で行う方法を説明することによって,橋渡しする。
26個の注意ヘッドを7つの主クラスに分類し, 因果的介入に依拠した解釈可能性アプローチを組み合わせることで考察した。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
説明の信頼性を,不完全性,完全性,最小性という3つの定量的基準を用いて評価した。
これらの基準は私たちの説明を支持していますが、理解の欠如も指摘しています。
私たちの研究は、大規模なMLモデルの機械的理解が実現可能であることを示し、より大きなモデルとより複雑なタスクの両方に理解を拡大する機会を開く。
関連論文リスト
- Sufficient and Necessary Explanations (and What Lies in Between) [6.9035001722324685]
本稿では,汎用機械学習モデルにおける特徴重要度に関する2つの正確な概念について考察する。
本稿では,必要十分軸に沿って連続体を探索することによって,これらの制限を回避することの重要性の統一概念を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:50:57Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - ExSum: From Local Explanations to Model Understanding [6.23934576145261]
ブラックボックスモデルの動作メカニズムを理解するために,解釈可能性法を開発した。
この目標をフルフィルするには、これらのメソッドによって生成された説明が正しいことと、人々が容易に確実に理解できることの両方が必要である。
本稿では,モデル理解の定量化のための数学的枠組みである説明要約(ExSum)を紹介する。
論文 参考訳(メタデータ) (2022-04-30T02:07:20Z) - Tell me why! -- Explanations support learning of relational and causal
structure [24.434551113103105]
説明は人間の学習において重要な役割を担い、特にAIにとって大きな課題が残る分野においてである。
我々は、強化学習エージェントが説明の恩恵を受ける可能性があることを示す。
我々の結果は、説明からの学習が強力な原則であり、より堅牢で一般的な機械学習システムのトレーニングに有望な道筋を提供することを示唆している。
論文 参考訳(メタデータ) (2021-12-07T15:09:06Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。