論文の概要: PolyGLU: State-Conditional Activation Routing in Transformer Feed-Forward Networks
- arxiv url: http://arxiv.org/abs/2603.13347v1
- Date: Sat, 07 Mar 2026 10:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.105489
- Title: PolyGLU: State-Conditional Activation Routing in Transformer Feed-Forward Networks
- Title(参考訳): PolyGLU: 変圧器フィードフォワードネットワークにおける状態依存型アクティベーションルーティング
- Authors: Daniel Nobrega Medeiros,
- Abstract要約: 我々は、各FFNニューロンがK=4の活性化関数を動的にルーティングすることを可能にする、SwiGLUのドロップイン置換であるPolyGLUを紹介する。
標準的なベンチマークでは、PlychromaticLMは3,600倍のトークンのトレーニングにもかかわらず、Qwen3-0.6B-Baseのパフォーマンスの62-89%を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological neural systems employ diverse neurotransmitters -- glutamate, GABA, dopamine, acetylcholine -- to implement distinct signal-processing modalities within shared neural circuits. In contrast, modern transformers apply a single fixed activation function across all feed-forward neurons. We introduce PolyGLU (Polychromatic Gated Linear Unit), a drop-in replacement for SwiGLU that enables each FFN neuron to dynamically route among K=4 activation functions via a differentiable mechanism combining learned static preferences with input-conditioned gating, trained end-to-end with Gumbel-Softmax. We train PolychromaticLM, a 597M-parameter transformer, on ~10B tokens using a single NVIDIA A100 GPU. Our key finding is emergent routing behavior: without any explicit sparsity loss or entropy regularization, the routing mechanism converges to near-deterministic activation selections (mean dynamic entropy = 0.030% of maximum), with a striking depth-dependent specialization pattern -- early layers prefer GELU while deep layers strongly favor Tanh. Three layers maintain elevated routing entropy, suggesting computational flexibility points. The routing architecture adds only 0.23% parameter overhead (~1.4M parameters) and proves fully robust to supervised fine-tuning: routing entropy remains constant at ln(4) throughout 13,067 SFT steps. On standard benchmarks, PolychromaticLM achieves 62-89% of Qwen3-0.6B-Base performance despite training on 3,600x fewer tokens. All code, weights, and training infrastructure are released under Apache 2.0.
- Abstract(参考訳): 生体神経系では、グルタミン酸、GABA、ドーパミン、アセチルコリンといった様々な神経伝達物質を用いて、共有神経回路内で異なる信号処理のモダリティを実装している。
対照的に、現代のトランスフォーマーはすべてのフィードフォワードニューロンに対して単一の固定活性化関数を適用している。
我々は,各FFNニューロンが,学習された静的嗜好と入力条件付きゲーティング,訓練されたエンドツーエンドのGumbel-Softmaxを組み合わせることで,K=4活性化関数間の動的ルーティングを可能にする,SwiGLUのドロップイン置換であるPolyGLU(Polychromatic Gated Linear Unit)を紹介する。
NVIDIA A100 GPUを用いて597MパラメトリックトランスであるPolychromaticLMを10Bトークンでトレーニングする。
我々の重要な発見は、創発的なルーティング行動である: 明示的な空間損失やエントロピー正規化がなければ、ルーティング機構は、決定論的に近いアクティベーション選択(平均的エントロピー=0.030%の最大値)に収束し、顕著な深さ依存の特殊化パターンを持つ。
3層は高次ルーティングエントロピーを維持しており、計算の柔軟性を示唆している。
ルーティングアーキテクチャは0.23%のパラメータオーバーヘッド(~1.4Mパラメータ)しか追加せず、教師付き微調整に完全に堅牢であることが証明されている。
標準的なベンチマークでは、PlychromaticLMは3,600倍のトークンのトレーニングにもかかわらず、Qwen3-0.6B-Baseのパフォーマンスの62-89%を達成した。
すべてのコード、ウェイト、トレーニングインフラストラクチャはApache 2.0でリリースされている。
関連論文リスト
- The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition [0.0]
凍結フーリエ基底からスペクトル係数を選択する微分可能なアーキテクチャである階層スペクトル合成を導入する。
我々はこのフレームワークを論理合成に適用し、ブール否定を可能にするカラムサイン変調を追加する。
論文 参考訳(メタデータ) (2026-01-20T13:26:52Z) - Spiking Decision Transformers: Local Plasticity, Phase-Coding, and Dendritic Routing for Low-Power Sequence Control [0.6117371161379209]
スパイクニューラルネットワークは、超低消費電力、イベント駆動推論を約束する。
本稿では、Leaky Integrate-and-Fire ニューロンを各自己注意ブロックに埋め込むSpking Decision Transformer (SNN-DT) を提案する。
シークエンスモデリングとニューロモルフィック効率を組み合わせることで、SNN-DTは組み込みデバイスやウェアラブルデバイスにおけるリアルタイム、低消費電力制御への道を開く。
論文 参考訳(メタデータ) (2025-08-29T10:37:37Z) - Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [48.46721044282335]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。
1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
その結果,TDNは計算処理の劇的な高速化と競合する性能を示した。
論文 参考訳(メタデータ) (2025-07-01T18:46:27Z) - LipKernel: Lipschitz-Bounded Convolutional Neural Networks via Dissipative Layers [0.0468732641979009]
本稿では,畳み込みニューラルネットワーク(CNN)の階層的パラメータ化を提案する。
提案手法は,2次元ロエサー型状態空間モデルを用いて,散逸型畳み込みカーネルを直接パラメータ化する。
提案手法を用いた実行時間は,最先端のリプシッツ有界ネットワークよりも桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2024-10-29T17:20:14Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。