論文の概要: Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models
- arxiv url: http://arxiv.org/abs/2410.01434v1
- Date: Wed, 2 Oct 2024 11:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 21:09:23.635708
- Title: Circuit Compositions: Exploring Modular Structures in Transformer-Based Language Models
- Title(参考訳): 回路構成:トランスフォーマーに基づく言語モデルにおけるモジュール構造探索
- Authors: Philipp Mondorf, Sondre Wold, Barbara Plank,
- Abstract要約: 言語モデル内で10個のモジュール型文字列編集処理を行う回路を同定・比較する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 22.89563355840371
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A fundamental question in interpretability research is to what extent neural networks, particularly language models, implement reusable functions via subnetworks that can be composed to perform more complex tasks. Recent developments in mechanistic interpretability have made progress in identifying subnetworks, often referred to as circuits, which represent the minimal computational subgraph responsible for a model's behavior on specific tasks. However, most studies focus on identifying circuits for individual tasks without investigating how functionally similar circuits relate to each other. To address this gap, we examine the modularity of neural networks by analyzing circuits for highly compositional subtasks within a transformer-based language model. Specifically, given a probabilistic context-free grammar, we identify and compare circuits responsible for ten modular string-edit operations. Our results indicate that functionally similar circuits exhibit both notable node overlap and cross-task faithfulness. Moreover, we demonstrate that the circuits identified can be reused and combined through subnetwork set operations to represent more complex functional capabilities of the model.
- Abstract(参考訳): 解釈可能性研究における根本的な疑問は、ニューラルネットワーク、特に言語モデルが、より複雑なタスクを実行するために構成できるサブネットワークを介して、再利用可能な機能を実装するかである。
近年の機械的解釈可能性の発達により、特定のタスクにおけるモデルの振る舞いに責任を負う最小限の計算部分グラフを表すサブネット(しばしばサーキットと呼ばれる)の同定が進んでいる。
しかし、ほとんどの研究は、機能的に類似した回路が相互にどのように関連しているかを調査することなく、個々のタスクの回路を特定することに重点を置いている。
このギャップに対処するために、トランスフォーマーベース言語モデル内の高構成サブタスクの回路を解析し、ニューラルネットワークのモジュラリティについて検討する。
具体的には、確率論的文脈自由文法を考慮し、10個のモジュール型文字列編集操作に責任を負う回路を特定し比較する。
以上の結果から,機能的に類似した回路は,ノード重なりとクロスタスク忠実度の両方を示すことが明らかとなった。
さらに、同定された回路は、サブネットワークセット演算によって再利用され、結合され、モデルのより複雑な機能的能力を表現できることを実証する。
関連論文リスト
- Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Transformers Use Causal World Models in Maze-Solving Tasks [49.67445252528868]
各種領域にまたがるタスクで訓練された変圧器モデルの内部動作について検討する。
トランスフォーマーは、トレーニング中に見るよりも多くのアクティブな機能に対して理にかなっていることが分かりました。
様々な位置エンコーディングがモデルの残留ストリームにWMをエンコードする方法を変えることを観察する。
論文 参考訳(メタデータ) (2024-12-16T15:21:04Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [28.81226181942661]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Towards Interpretable Sequence Continuation: Analyzing Shared Circuits in Large Language Models [9.56229382432426]
本研究の目的は、トランスフォーマーモデルをアルゴリズム機能を実装する人間可読表現にリバースエンジニアリングすることである。
GPT-2 SmallとLlama-2-7Bの両方のキーサブ回路を回路解釈可能性解析により同定する。
このサブ回路は、インターバル回路、スペイン語の数字と月数継続、自然言語の単語問題など、様々な数学的なプロンプトに影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-11-07T16:58:51Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Can Transformers Learn to Solve Problems Recursively? [9.5623664764386]
本稿では,プログラムと形式検証に関連するニューラルネットワーク学習アルゴリズムの挙動について検討する。
これらのアルゴリズムを再構築することにより、近似関数の1つに対して、障害ケースの91%を正確に予測することができる。
論文 参考訳(メタデータ) (2023-05-24T04:08:37Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。