論文の概要: Hierarchical Sparse Circuit Extraction from Billion-Parameter Language Models through Scalable Attribution Graph Decomposition
- arxiv url: http://arxiv.org/abs/2601.12879v1
- Date: Mon, 19 Jan 2026 09:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.835198
- Title: Hierarchical Sparse Circuit Extraction from Billion-Parameter Language Models through Scalable Attribution Graph Decomposition
- Title(参考訳): スケーラブル属性グラフ分解による10億パラメータ言語モデルからの階層的スパース回路抽出
- Authors: Mohammed Mudassir Uddin, Shahnawaz Alam, Mohammed Kaif Pasha,
- Abstract要約: 我々は,O(2n)からO(n2 log n)への排他的列挙から回路発見の複雑さを低減する枠組みを提案する。
本手法は,モノセマンティック特徴抽出のための層間トランスコーダ,トポロジ予測のためのグラフニューラルネットワークメタラーニング,検証のための因果介入プロトコルを統合する。
モジュラー演算のタスクでは、このフレームワークは解釈可能なサブグラフサイズを維持しながら、最大91%の動作保存(pm$2.3%)を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability seeks to reverse-engineer neural network computations into human-understandable algorithms, yet extracting sparse computational circuits from billion-parameter language models remains challenging due to exponential search complexity and pervasive polysemanticity. The proposed Hierarchical Attribution Graph Decomposition (HAGD) framework reduces circuit discovery complexity from O(2^n) exhaustive enumeration to O(n^2 log n) through multi-resolution abstraction hierarchies and differentiable circuit search. The methodology integrates cross-layer transcoders for monosemantic feature extraction, graph neural network meta-learning for topology prediction, and causal intervention protocols for validation. Empirical evaluation spans GPT-2 variants, Llama-7B through Llama-70B, and Pythia suite models across algorithmic tasks and natural language benchmarks. On modular arithmetic tasks, the framework achieves up to 91% behavioral preservation ($\pm$2.3\% across runs) while maintaining interpretable subgraph sizes. Cross-architecture transfer experiments suggest that discovered circuits exhibit moderate structural similarity (averaging 67%) across model families, indicating potential shared computational patterns. These results provide preliminary foundations for interpretability at larger model scales while identifying significant limitations in current attribution methodologies that require future advances.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークの計算を人間の理解可能なアルゴリズムにリバースエンジニアリングしようとするが、数十億パラメータの言語モデルからスパース計算回路を抽出することは、指数探索の複雑さと広範多意味性のために依然として困難である。
提案した階層型属性グラフ分解(HAGD)フレームワークは,O(2^n) から O(n^2 log n) までの回路発見の複雑さを,多分解能の抽象化階層と微分可能な回路探索により低減する。
本手法は,モノセマンティック特徴抽出のための層間トランスコーダ,トポロジ予測のためのグラフニューラルネットワークメタラーニング,検証のための因果介入プロトコルを統合する。
経験的評価はGPT-2の変種、Llama-70BのLlama-7B、アルゴリズムタスクと自然言語ベンチマークのPythiaスイートモデルにまたがる。
モジュラー演算タスクにおいて、このフレームワークは解釈可能なサブグラフサイズを維持しながら、最大91%の挙動保存(実行毎に2.3 %)を達成する。
クロスアーキテクチャ転送実験は、発見回路がモデルファミリ間で適度な構造的類似性(67%)を示し、潜在的な共有計算パターンを示していることを示唆している。
これらの結果は、より大規模なモデルスケールでの解釈可能性に関する予備的な基礎を提供するとともに、将来の進歩を必要とする現在の属性方法論における重要な制限を特定している。
関連論文リスト
- FuncGNN: Learning Functional Semantics of Logic Circuits with Graph Neural Networks [0.0]
And-Inverter Graph synthesiss (AIG) は、現代の回路におけるブール論理を表現するために広く採用されている。
マルチグラニュラリティトポロジカルパターンを抽出するために,ハイブリッド機能アグリゲーションを統合したFuncGNNを提案する。
FuncGNNは、それぞれ2.06%と18.71%の改善を実現し、トレーニング時間を約50.6%、GPUメモリ使用量を約32.8%削減した。
論文 参考訳(メタデータ) (2025-06-07T13:04:07Z) - A Scalable Quantum Neural Network for Approximate SRBB-Based Unitary Synthesis [1.3108652488669736]
拡張性のある量子ニューラルネットワークは、任意のユニタリ進化を近似する手段として導入された。
SRBBベースの合成アルゴリズムは、実際のハードウェア上でもテストされる。
論文 参考訳(メタデータ) (2024-12-04T07:21:23Z) - Uncovering Intermediate Variables in Transformers using Circuit Probing [28.81226181942661]
本稿では,仮説化中間変数を演算する低レベル回路を自動的に発見する回路探索手法を提案する。
本手法は,(1)モデルが学習したアルゴリズムの解読,(2)モデル内のモジュラ構造を明らかにすること,(3)学習中の回路の発達を追跡することなどにおいて,単純な算術課題で訓練されたモデルに適用する。
論文 参考訳(メタデータ) (2023-11-07T21:27:17Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Progressive Spatio-Temporal Graph Convolutional Network for
Skeleton-Based Human Action Recognition [97.14064057840089]
本稿では,グラフ畳み込みネットワークのためのコンパクトで問題固有のネットワークを,段階的に自動的に見つける手法を提案する。
骨格に基づく人体行動認識のための2つのデータセットの実験結果から,提案手法は競争力あるいはより優れた分類性能を有することが示された。
論文 参考訳(メタデータ) (2020-11-11T09:57:49Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。