Fugu-MT 論文翻訳(概要): Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers

論文の概要: Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers

arxiv url: http://arxiv.org/abs/2605.24059v1
Date: Fri, 22 May 2026 02:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.567143
Title: Spectral Probe-Circuits: A Three-Step Recipe for Identifying Attention-Head Circuits in Pretrained Transformers
Title（参考訳）: スペクトルプローブ回路:予め訓練した変圧器のアテンションヘッド回路同定のための3ステップレシピ
Authors: Yongzhong Xu,
Abstract要約: 本稿では,事前学習した変圧器のアテンションヘッド回路を特定するための3ステップのレシピを提案する。ヘッド毎のスペクトル信号は、ラベルや属性なしで持続的コンテンツ依存の計算を行うヘッドをランク付けする。タスクパターン画面は、この一般的なインジケータをタスク固有の候補回路にフィルタリングする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a three-step recipe for identifying attention-head circuits in pretrained transformers. A per-head spectral signal -- the time-integrated participation ratio of each head's attention output -- ranks heads doing sustained content-dependent computation without labels or attribution gradients. A task-pattern screen filters this general indicator into a task-specific candidate circuit, and group ablation against a matched-random control completes the causal claim. We validate across an 8x parameter range (51M to 1B-active / 7B-total), two architecture families (dense, mixture-of-experts), and four pretraining pipelines. The recipe ports: a 2-6 head induction circuit is causally necessary in every model tested, with a 94-100% drop in synthetic-induction top-1 after ablation. The spectral signal is predictive without supervision: on six independent seeds of a 51M-parameter probe model, the same computation identifies the seed-specific circuit on each seed. The fraction of heads doing identifiable specialized computation is conserved at 17-19% across the Pythia family (124M to 410M), while specific induction circuits stay 3-11 heads -- sublinear in total head count. This paper is the methodology anchor of a three-paper program; companion papers extend the recipe to developmental trajectories during pretraining and to composed-task circuits where pattern selectivity decouples from task-causal structure.
Abstract（参考訳）: 本稿では,事前学習した変圧器のアテンションヘッド回路を特定するための3ステップのレシピを提案する。ヘッド毎のスペクトル信号 - 各ヘッドのアテンション出力の時間積分参加比率 - は、ラベルや属性勾配なしで持続的コンテンツ依存の計算を行うヘッドをランク付けする。タスクパターン画面は、この一般的なインジケータをタスク固有の候補回路にフィルタリングし、マッチしたランダム制御に対するグループアブレーションが因果クレームを完了する。我々は,8xパラメータ範囲(51Mから1B-active/7B-total),2つのアーキテクチャファミリ(dense,mix-of-experts),4つの事前学習パイプラインを検証した。レシピポート:試験された全てのモデルに2-6個のヘッド誘導回路が因果的に必要であり、アブレーション後の合成誘導トップ1は94-100%低下する。スペクトル信号は、51Mパラメータープローブモデルの6つの独立したシードに対して、各シード上のシード固有の回路を特定する。特定可能な特殊計算を行う頭部のごく一部は、ピシア族全体で17-19%(124Mから410M)で保存されている。本論文は,3紙プログラムの方法論的アンカーであり,コンパニオン論文は,事前学習中にレシピを発達軌跡に拡張し,パターン選択がタスク・因果構造から切り離される合成タスク回路に拡張する。

関連論文リスト

The Deterministic Horizon: Impossibility Results as Design Specifications for Trustworthy AI Systems [0.0]
この論文は、好奇心から不合理性の結果を設計規則に変える。そのフラッグシップとなる結果は、アーキテクチャだけで設定された精度の高い天井を証明している。同じ引数がサブフィールドにまたがって再キャストされる。
論文参考訳（メタデータ） (2026-05-21T20:48:35Z)
Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文参考訳（メタデータ） (2026-05-15T17:08:27Z)
Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs [9.127363793428119]
摂動探索は、大規模言語モデルにおけるFFNニューロンに対するタスク特異的因果仮説を生成する。 8つの動作回路、13のモデル、および4つのアーキテクチャファミリにまたがって、LLMの動作を整理する2つの回路構造を同定する。
論文参考訳（メタデータ） (2026-04-30T04:13:33Z)
Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。 AHEは3つの一致した可観測性柱を通じて課題に対処する。 10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。 SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文参考訳（メタデータ） (2026-04-28T16:55:02Z)
Metriplector: From Field Theory to Neural Architecture [0.25168553347063854]
本稿では,入力が抽象物理系を構成するニューラルネットワークプリミティブであるMetriplectorを提案する。多重場は結合メチトレティックダイナミクスによって発展し、ネーターの定理から導かれる応力エネルギーテンソルTは読み出しを与える。我々は5つの領域にまたがるMetriplectorを評価し、それぞれが、この共有プリミティブから構築されたタスク固有のアーキテクチャと、徐々にリッチな物理を用いて評価する。
論文参考訳（メタデータ） (2026-03-31T09:40:26Z)
When Does Content-Based Routing Work? Representation Requirements for Selective Attention in Hybrid Sequence Models [0.0]
ハイブリッドリカレントアテンションアーキテクチャにおけるルーティングパラドックスを同定する。コンテンツベースのルーティングは、ルーティングが避けるように設計されたペアワイズな計算を必要とすることを示す。
論文参考訳（メタデータ） (2026-03-22T01:04:57Z)
Low-complexity deep learning frameworks for acoustic scene classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。 DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文参考訳（メタデータ） (2022-06-13T11:41:39Z)
Towards Neural Diarization for Unlimited Numbers of Speakers Using Global and Local Attractors [51.01295414889487]
本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
論文参考訳（メタデータ） (2021-07-04T05:34:21Z)
Multilabel 12-Lead Electrocardiogram Classification Using Gradient Boosting Tree Ensemble [64.29529357862955]
我々は,心電図の診断を分類するために,形態や信号処理機能に適合した勾配強化木のアンサンブルを用いたアルゴリズムを構築した。各リードについて、心拍変動、PQRSTテンプレート形状、全信号波形から特徴を導出する。各クラスに属するECGインスタンスの確率を予測するため、全12項目の特徴と合わせて、勾配を増す決定ツリーの集合に適合する。
論文参考訳（メタデータ） (2020-10-21T18:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。