論文の概要: CircuitProbe: Predicting Reasoning Circuits in Transformers via Stability Zone Detection
- arxiv url: http://arxiv.org/abs/2604.00716v1
- Date: Wed, 01 Apr 2026 10:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.938681
- Title: CircuitProbe: Predicting Reasoning Circuits in Transformers via Stability Zone Detection
- Title(参考訳): CircuitProbe:安定領域検出による変圧器の共振回路予測
- Authors: Rajkiran Panuganti,
- Abstract要約: CPU上で5分以内のアクティベーション統計から回路位置を予測するCircuitProbeを提案する。
推論回路は, 初期層における安定回路, 表現変化の微分による検出, 後期層における等級回路, 異常スコアリングによる検出の2種類に分類される。
CircuitProbeは10の校正例を必要とし、その予測は英語、ヒンディー語、中国語、フランス語で安定している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models contain localized reasoning circuits, contiguous layer blocks that improve reasoning when duplicated at inference time. Finding these circuits currently requires brute-force sweeps costing 25 GPU hours per model. We propose CircuitProbe, which predicts circuit locations from activation statistics in under 5 minutes on CPU, providing a speedup of three to four orders of magnitude. We find that reasoning circuits come in two types: stability circuits in early layers, detected through the derivative of representation change, and magnitude circuits in late layers, detected through anomaly scoring. We validate across 9 models spanning 6 architectures, including 2025 models, confirming that CircuitProbe top predictions match or are within 2 layers of the optimal circuit in all validated cases. A scaling experiment across the Qwen 2.5 family reveals that layer duplication consistently benefits models under 3B parameters but degrades performance in 7B+ models, making this a practical scaling technique for small language models. CircuitProbe requires as few as 10 calibration examples and its predictions are stable across English, Hindi, Chinese, and French.
- Abstract(参考訳): トランスフォーマー言語モデルには、局所的な推論回路、推論時に複製された場合の推論を改善する連続層ブロックが含まれる。
現在これらの回路を見つけるには、モデル毎のGPU時間に25時間かかるブルートフォーススイープが必要である。
本稿では,CPU上でのアクティベーション統計から回路位置を5分以内で予測し,最大3~4桁の高速化を実現するCircuitProbeを提案する。
推論回路は, 初期層における安定回路, 表現変化の微分による検出, 後期層における等級回路, 異常スコアリングによる検出の2種類に分類される。
我々は、2025モデルを含む6つのアーキテクチャにまたがる9つのモデルに対して検証を行い、CircuitProbeのトップ予測が全ての検証済みケースにおいて最適回路の2層以内であることを確認した。
Qwen 2.5ファミリでのスケーリング実験では、レイヤ重複は3Bパラメータ以下のモデルに一貫してメリットがあるが、7B以上のモデルではパフォーマンスが低下していることが判明した。
CircuitProbeは10のキャリブレーションの例を必要とし、その予測は英語、ヒンディー語、中国語、フランス語で安定している。
関連論文リスト
- Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - LaMAGIC: Language-Model-based Topology Generation for Analog Integrated Circuits [17.002169206594793]
先駆的な言語モデルに基づくトポロジ生成モデルであるLaMAGICを紹介する。
LaMAGICは、カスタム仕様から最適化された回路設計を単一のパスで効率的に生成できる。
LaMAGICは0.01の厳格な許容条件で最大96%の成功率を達成した。
論文 参考訳(メタデータ) (2024-07-19T22:51:41Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Circuit Transformer: A Transformer That Preserves Logical Equivalence [20.8279111910994]
生成型ニューラルモデル "Circuit Transformer" を導入し,論理回路を与えられたブール関数と厳密に等価に生成する。
回路の特定の目的を最適化するためにマルコフ決定過程の定式化も提案されている。
論文 参考訳(メタデータ) (2024-03-14T03:24:14Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Hardware-Encoding Grid States in a Non-Reciprocal Superconducting
Circuit [62.997667081978825]
本稿では、非相互デバイスと、基底空間が2倍縮退し、基底状態がGottesman-Kitaev-Preskill(GKP)符号の近似符号であるジョセフソン接合からなる回路設計について述べる。
この回路は、電荷やフラックスノイズなどの超伝導回路の一般的なノイズチャネルに対して自然に保護されており、受動的量子誤差補正に使用できることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T16:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。