論文の概要: Circuit Component Reuse Across Tasks in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2310.08744v2
- Date: Wed, 17 Jan 2024 23:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 19:58:16.327654
- Title: Circuit Component Reuse Across Tasks in Transformer Language Models
- Title(参考訳): トランスフォーマー言語モデルにおけるタスク間の回路コンポーネント再利用
- Authors: Jack Merullo, Carsten Eickhoff, Ellie Pavlick
- Abstract要約: 我々は、洞察がタスクをまたいで実際に一般化できる証拠を示す。
両タスクの根底にあるプロセスは機能的に非常によく似ており、回路内注目ヘッドの約78%が重なり合っていることを示す。
この結果から,大規模言語モデルの動作を,比較的少数の解釈可能なタスク一般のアルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 36.29933464955979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in mechanistic interpretability has shown that behaviors in
language models can be successfully reverse-engineered through circuit
analysis. A common criticism, however, is that each circuit is task-specific,
and thus such analysis cannot contribute to understanding the models at a
higher level. In this work, we present evidence that insights (both low-level
findings about specific heads and higher-level findings about general
algorithms) can indeed generalize across tasks. Specifically, we study the
circuit discovered in Wang et al. (2022) for the Indirect Object Identification
(IOI) task and 1.) show that it reproduces on a larger GPT2 model, and 2.) that
it is mostly reused to solve a seemingly different task: Colored Objects
(Ippolito & Callison-Burch, 2023). We provide evidence that the process
underlying both tasks is functionally very similar, and contains about a 78%
overlap in in-circuit attention heads. We further present a proof-of-concept
intervention experiment, in which we adjust four attention heads in middle
layers in order to 'repair' the Colored Objects circuit and make it behave like
the IOI circuit. In doing so, we boost accuracy from 49.6% to 93.7% on the
Colored Objects task and explain most sources of error. The intervention
affects downstream attention heads in specific ways predicted by their
interactions in the IOI circuit, indicating that this subcircuit behavior is
invariant to the different task inputs. Overall, our results provide evidence
that it may yet be possible to explain large language models' behavior in terms
of a relatively small number of interpretable task-general algorithmic building
blocks and computational components.
- Abstract(参考訳): 機械論的解釈可能性に関する最近の研究は、回路解析によって言語モデルの振る舞いを逆エンジニアリングできることを示した。
しかし、一般的な批判として、各回路はタスク固有であり、そのような分析はより高いレベルでモデルを理解することに寄与しない。
本研究は、特定の頭部に関する低レベルな発見と一般アルゴリズムに関する高レベルな発見の両方が、タスク全体にわたって実際に一般化できることを示す。
具体的には,Wang et al. (2022) で発見された間接物体識別(IOI)タスクの回路について検討する。
1)より大きなgpt2モデルで再現できることを示し、
2. 一見異なるタスク:色付きオブジェクト(ippolito & callison-burch, 2023)を解決するために再利用されることが多い。
両タスクの根底にあるプロセスが機能的に非常によく似ており、回路内注目ヘッドの約78%が重複していることを示す。
さらに,中間層に4つの注目ヘッドを配置して,カラーオブジェクト回路を「修復」し,IOI回路のように動作させる,概念実証介入実験を提案する。
そうすることで、Colored Objectsタスクの精度は49.6%から93.7%に向上し、ほとんどのエラーソースを説明します。
この介入は、IOI回路内の相互作用によって予測される特定の方法で下流の注意に影響を与え、このサブ回路の挙動が異なるタスク入力に不変であることを示す。
本研究の結果から,大規模言語モデルの動作を,相対的に少ない数のタスク一般化型アルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
関連論文リスト
- Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Interpreting Shared Circuits for Ordered Sequence Prediction in a Large
Language Model [2.44755919161855]
この研究は、トランスフォーマーモデルを回路と呼ばれる人間可読表現にリバースエンジニアリングすることを目的としている。
我々は、シーケンスメンバーの検出と、シーケンス内の次のメンバの予測に責任があるキーサブ回路を同定する。
解析の結果、意味的関連配列は類似した役割を持つ共有回路サブグラフに依存していることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T16:58:51Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Fast and flexible: Human program induction in abstract reasoning tasks [14.24200473508597]
ARC(1000点中40点)からタスクのサブセットを解く人間の行動研究から収集された最初の結果について報告する。
実験の結果,人間は基礎となるプログラムを推測し,新しいテスト入力例の正しいテスト出力を生成することができた。
以上の結果から,タスクの関連する特徴や特性を迅速かつ確実に決定し,正しいソリューションを作成できることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T02:18:21Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。