論文の概要: Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path
- arxiv url: http://arxiv.org/abs/2602.09784v1
- Date: Tue, 10 Feb 2026 13:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.553145
- Title: Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path
- Title(参考訳): サーキット・フィンガープリント:解答者が幾何学的経路をコード化する方法
- Authors: Andres Saurez, Neha Sengar, Dongsoo Har,
- Abstract要約: 変圧器における回路発見とアクティベーションステアリングは同じ表現空間で動作する。
答えトークンは独立して処理され、それらを生成する方向をエンコードします。
- 参考スコア(独自算出の注目度): 5.104181562775778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Circuit discovery and activation steering in transformers have developed as separate research threads, yet both operate on the same representational space. Are they two views of the same underlying structure? We show they follow a single geometric principle: answer tokens, processed in isolation, encode the directions that would produce them. This Circuit Fingerprint hypothesis enables circuit discovery without gradients or causal intervention -- recovering comparable structure to gradient-based methods through geometric alignment alone. We validate this on standard benchmarks (IOI, SVA, MCQA) across four model families, achieving circuit discovery performance comparable to gradient-based methods. The same directions that identify circuit components also enable controlled steering -- achieving 69.8\% emotion classification accuracy versus 53.1\% for instruction prompting while preserving factual accuracy. Beyond method development, this read-write duality reveals that transformer circuits are fundamentally geometric structures: interpretability and controllability are two facets of the same object.
- Abstract(参考訳): トランスにおける回路発見とアクティベーションステアリングは別個の研究スレッドとして開発されたが、どちらも同じ表現空間で動作する。
同じ基盤構造を2つの視点で見ることができますか?
答えトークンは独立して処理され、それらを生成する方向をエンコードします。
このサーキットフィンガープリント仮説は、勾配や因果介入のない回路発見を可能にし、幾何学的アライメントだけで勾配に基づく手法に匹敵する構造を復元する。
4つのモデルファミリの標準ベンチマーク(IOI, SVA, MCQA)でこれを検証し, 勾配法に匹敵する回路探索性能を実現する。
回路部品を識別するのと同じ方向で制御されたステアリングも可能であり、実際の精度を維持しながら命令のプロンプトに対して69.8\%の感情分類精度が53.1\%となる。
この読み書き双対性は、変換回路が基本的な幾何学的構造であることを示す:解釈可能性と制御性は同じ対象の2つの面である。
関連論文リスト
- Explaining the Explainer: Understanding the Inner Workings of Transformer-based Symbolic Regression Models [3.7957452405531265]
PATCHESは,シンボル回帰のためのコンパクトかつ正しい回路を識別する進化的回路探索アルゴリズムである。
PATCHESを用いて28個の回路を分離し,SRトランスの回路レベルの特性化を行う。
論文 参考訳(メタデータ) (2026-02-03T13:27:10Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文 参考訳(メタデータ) (2024-05-22T17:50:04Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Analyzing Transformer Dynamics as Movement through Embedding Space [0.0]
本稿では,トランスフォーマーをベースとした言語モデルが,自然言語理解などの知的行動を示す方法について考察する。
埋め込み空間を通した動きとしてフレーミングトランスフォーマーダイナミクスを提案する。
論文 参考訳(メタデータ) (2023-08-21T17:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。