論文の概要: The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers
- arxiv url: http://arxiv.org/abs/2603.10985v1
- Date: Wed, 11 Mar 2026 17:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.072981
- Title: The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers
- Title(参考訳): MLPの離散チャーム:変圧器フィードフォワード層における連続信号のバイナリルーティング
- Authors: Peter Balogh,
- Abstract要約: 言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that MLP layers in transformer language models perform binary routing of continuous signals: the decision of whether a token needs nonlinear processing is well-captured by binary neuron activations, even though the signals being routed are continuous. In GPT-2 Small (124M parameters), we find that specific neurons implement a consensus architecture -- seven "default-ON" neurons and one exception handler (N2123 in Layer 11) that are 93-98% mutually exclusive -- creating a binary routing switch. A cross-layer analysis reveals a developmental arc: early layers (L1-3) use single gateway neurons to route exceptions without consensus quorums; middle layers (L4-6) show diffuse processing with neither gateway nor consensus; and late layers (L7-11) crystallize full consensus/exception architectures with increasing quorum size (1 to 3 to 7 consensus neurons). Causal validation confirms the routing is functional: removing the MLP at consensus breakdown costs 43.3% perplexity, while at full consensus removing it costs only 10.1% -- exceeding a 4x difference. Comparing binary vs. continuous features for the routing decision confirms that binarization loses essentially no information (79.2% vs. 78.8% accuracy), while continuous activations carry additional magnitude information (R^2 = 0.36 vs. 0.22). This binary routing structure explains why smooth polynomial approximation fails: cross-validated polynomial fits (degrees 2-7) never exceed R^2 = 0.06 for highly nonlinear layers. We propose that the well-established piecewise-affine characterization of deep networks can be complemented by a routing characterization: along the natural data manifold, the piecewise boundaries implement binary decisions about which tokens need nonlinear processing, routing continuous signals through qualitatively different computational paths.
- Abstract(参考訳): 本稿では,変換言語モデルにおけるMLP層が連続信号のバイナリルーティングを行うことを示す。
GPT-2 Small (124Mパラメータ)では、特定のニューロンがコンセンサスアーキテクチャ – 7つの"デフォルトON"ニューロンと1つの例外ハンドラ (レイヤ11ではN2123) – を実装していることが分かる。
初期の層 (L1-3) はコンセンサスクォーラムなしで例外をルーティングするために単一ゲートウェイニューロンを使用し、中層 (L4-6) はゲートウェイもコンセンサスも含まない拡散処理を示し、後期層 (L7-11) はクォーラムサイズの増大とともに完全なコンセンサス/例外アーキテクチャを結晶化する。
因果検証(Causal validation)は、ルーティングが機能的であることを確認する: コンセンサス分解コスト43.3%のパープレキシティを除去する一方で、完全なコンセンサス除去コストは10.1%で、差は4倍を超えている。
経路決定のバイナリと連続的な特徴を比較すると、二項化は基本的に情報を失う(79.2%対78.8%の精度)のに対し、連続的なアクティベーションは追加の等級情報を運ぶ(R^2 = 0.36 vs. 0.22)。
このバイナリルーティング構造は、なぜ滑らかな多項式近似が失敗するのかを説明している: クロスバリデード多項式は、高非線形層に対してR^2 = 0.06を超えない(次数 2-7)。
自然データ多様体では, トークンがどの非線形処理を必要とするか, 定性的に異なる計算経路を通して連続的な信号をルーティングするか, という二項決定を実装している。
関連論文リスト
- Polynomial Surrogate Training for Differentiable Ternary Logic Gate Networks [3.2249474972573555]
学習可能な9つの係数を持つ3次ニューロンを次数$(2,2)$で表すPST(Polynomial Surrogate Training)を導入する。
PST はバイナリ DLGN よりも高速に$2-$3times を訓練し、機能的に多様である真の三次ゲートを発見する。
論文 参考訳(メタデータ) (2026-02-27T20:37:17Z) - Generalizing GNNs with Tokenized Mixture of Experts [75.8310720413187]
安定性の向上には,変化に敏感な特徴への依存を低減し,既約最悪の一般化フロアを残す必要があることを示す。
本研究では,STEM-GNNを提案する。STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN,STEM-GNN。
9つのノード、リンク、グラフのベンチマークで、STEM-GNNはより強力な3方向バランスを実現し、クリアグラフ上での競争力を維持しながら、次数/ホモフィリーシフトや特徴/エッジの破損に対する堅牢性を改善している。
論文 参考訳(メタデータ) (2026-02-09T22:48:30Z) - Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition [0.0]
凍結フーリエ基底からスペクトル係数を選択する微分可能なアーキテクチャである階層スペクトル合成を導入する。
我々はこのフレームワークを論理合成に適用し、ブール否定を可能にするカラムサイン変調を追加する。
論文 参考訳(メタデータ) (2026-01-20T13:26:52Z) - Automated Circuit Interpretation via Probe Prompting [0.0]
本稿では、帰属グラフをコンパクトで解釈可能な部分グラフに変換する自動パイプラインであるプローブプロンプトを提案する。
5つのプロンプトにまたがって、プローブプロンプトされたサブグラフは、複雑さを圧縮しながら高い説明的カバレッジを保っている。
幾何学的クラスタリングベースラインと比較すると、概念整列群はより高い行動コヒーレンスを示す。
論文 参考訳(メタデータ) (2025-11-10T11:53:36Z) - Environment-Aware Indoor LoRaWAN Path Loss: Parametric Regression Comparisons, Shadow Fading, and Calibrated Fade Margins [3.776919981139063]
内部のLoRaWAN伝播は、構造的および時間的変化の文脈因子によって形成される。
リークセーフなクロスバリデーションを用いて評価した,環境に配慮した統計的に規律のある経路損失フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:14:48Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - When Residual Learning Meets Dense Aggregation: Rethinking the
Aggregation of Deep Neural Networks [57.0502745301132]
我々は,グローバルな残差学習と局所的なマイクロセンスアグリゲーションを備えた新しいアーキテクチャであるMicro-Dense Netsを提案する。
我々のマイクロセンスブロックはニューラルアーキテクチャ検索に基づくモデルと統合して性能を向上させることができる。
論文 参考訳(メタデータ) (2020-04-19T08:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。