論文の概要: Circuit Component Reuse Across Tasks in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2310.08744v3
- Date: Mon, 6 May 2024 14:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:45:15.106673
- Title: Circuit Component Reuse Across Tasks in Transformer Language Models
- Title(参考訳): 変圧器言語モデルにおけるタスク間の回路部品再利用
- Authors: Jack Merullo, Carsten Eickhoff, Ellie Pavlick,
- Abstract要約: 我々は、洞察がタスクをまたいで実際に一般化できる証拠を示す。
両タスクの根底にあるプロセスは機能的に非常によく似ており、回路内注目ヘッドの約78%が重なり合っていることを示す。
この結果から,大規模言語モデルの動作を,比較的少数の解釈可能なタスク一般のアルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 32.2976613483151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in mechanistic interpretability has shown that behaviors in language models can be successfully reverse-engineered through circuit analysis. A common criticism, however, is that each circuit is task-specific, and thus such analysis cannot contribute to understanding the models at a higher level. In this work, we present evidence that insights (both low-level findings about specific heads and higher-level findings about general algorithms) can indeed generalize across tasks. Specifically, we study the circuit discovered in Wang et al. (2022) for the Indirect Object Identification (IOI) task and 1.) show that it reproduces on a larger GPT2 model, and 2.) that it is mostly reused to solve a seemingly different task: Colored Objects (Ippolito & Callison-Burch, 2023). We provide evidence that the process underlying both tasks is functionally very similar, and contains about a 78% overlap in in-circuit attention heads. We further present a proof-of-concept intervention experiment, in which we adjust four attention heads in middle layers in order to 'repair' the Colored Objects circuit and make it behave like the IOI circuit. In doing so, we boost accuracy from 49.6% to 93.7% on the Colored Objects task and explain most sources of error. The intervention affects downstream attention heads in specific ways predicted by their interactions in the IOI circuit, indicating that this subcircuit behavior is invariant to the different task inputs. Overall, our results provide evidence that it may yet be possible to explain large language models' behavior in terms of a relatively small number of interpretable task-general algorithmic building blocks and computational components.
- Abstract(参考訳): 機械論的解釈可能性に関する最近の研究は、回路解析によって言語モデルの振る舞いをリバースエンジニアリングに成功させることができることを示した。
しかし、一般的な批判は、各回路がタスク固有であり、そのような分析はより高いレベルでモデルを理解するのに寄与しないということである。
本研究は、特定の頭部に関する低レベルな発見と一般アルゴリズムに関する高レベルな発見の両方が、タスク全体にわたって実際に一般化できることを示す。
具体的には,Wang et al (2022) で発見された間接物体識別(IOI)タスクの回路について検討する。
1) より大きなGPT2モデルで再生し、
色付けされたオブジェクト(Ippolito & Callison-Burch, 2023)。
両タスクの根底にあるプロセスが機能的に非常によく似ており、回路内注目ヘッドの約78%が重複していることを示す。
さらに,中間層に4つの注目ヘッドを配置して,カラーオブジェクト回路を「修復」し,IOI回路のように動作させる,概念実証介入実験を提案する。
そうすることで、Colored Objectsタスクの精度は49.6%から93.7%に向上し、ほとんどのエラーソースを説明します。
この介入は、IOI回路内の相互作用によって予測される特定の方法で下流の注意に影響を与え、このサブ回路の挙動が異なるタスク入力に不変であることを示す。
本研究の結果から,大規模言語モデルの動作を,相対的に少ない数のタスク一般化型アルゴリズム構築ブロックや計算部品で説明できる可能性が示唆された。
関連論文リスト
- Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [32.382094867951224]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models [9.56229382432426]
本研究の目的は、トランスフォーマーモデルをアルゴリズム機能を実装する人間可読表現にリバースエンジニアリングすることである。
GPT-2 SmallとLlama-2-7Bの両方のキーサブ回路を回路解釈可能性解析により同定する。
このサブ回路は、インターバル回路、スペイン語の数字と月数継続、自然言語の単語問題など、様々な数学的なプロンプトに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-11-07T16:58:51Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z) - Fast and flexible: Human program induction in abstract reasoning tasks [14.24200473508597]
ARC(1000点中40点)からタスクのサブセットを解く人間の行動研究から収集された最初の結果について報告する。
実験の結果,人間は基礎となるプログラムを推測し,新しいテスト入力例の正しいテスト出力を生成することができた。
以上の結果から,タスクの関連する特徴や特性を迅速かつ確実に決定し,正しいソリューションを作成できることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T02:18:21Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。