論文の概要: Sparsity Moves Computation: How FFN Architecture Reshapes Attention in Small Transformers
- arxiv url: http://arxiv.org/abs/2605.09403v1
- Date: Sun, 10 May 2026 08:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.230899
- Title: Sparsity Moves Computation: How FFN Architecture Reshapes Attention in Small Transformers
- Title(参考訳): Sparsityが計算を移行 - 小さなトランスフォーマーにおけるFFNアーキテクチャの意識
- Authors: Gabriel Smithline, Chris Mascioli,
- Abstract要約: 本稿では,トランスフォーマーフィードフォワードネットワーク(FFN)内のアーキテクチャ選択が,他のモデルで学習した計算をどのように作り直すかを検討する。
我々は、この再分配を、専門家間でのFFN容量の削減とスパースパーティショニングに分解する。
パラメータマッチング,アクティベーション・ファンクション,ワイド・スケーリング分析など,ランダム・ルーティング,狭小FFN,トップ2 MoE コントロールを用いて,これらの結論を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Architectural choices inside the Transformer feedforward network (FFN) block do not merely affect the block itself; they reshape the computations learned by the rest of the model. We study this effect in one-layer Transformers trained on digit addition with carry, modular arithmetic, and histogram counting. Comparing dense FFNs, gated linear units (GLUs), mixture-of-experts (MoE), and MoE-GLUs, we find that sparse MoE routing can shift computation from FFN to attention, with the strongest ablation-visible effect on carry-based addition. We decompose this redistribution into reduced per-token FFN capacity and sparse partitioning across experts. Critically, frozen random routing nearly matches learned routing, suggesting that redistribution is driven largely by architectural sparsity rather than router-learned specialization. As a secondary finding, GLU-style multiplicative gating rotates task-relevant Fourier structure out of the per-neuron basis and into distributed subspaces, making neuron-level interpretability less informative while preserving structured computation. We validate these conclusions with random-routing, narrow-FFN, and top-2 MoE controls, plus parameter-matching, activation-function, and width-scaling analyses. Together, these results show that local FFN design choices can have nonlocal consequences for Transformer computation.
- Abstract(参考訳): Transformer Feedforward Network (FFN) ブロック内のアーキテクチャ上の選択は、単にブロック自体に影響を与えるだけでなく、モデルの他の部分によって学習された計算を再構築する。
この効果を,キャリー,モジュラー演算,ヒストグラム計数による1層トランスフォーマーで検討した。
密度の高いFFN, ゲート線形単位 (GLU) , 混合オブエキスパート (MoE) および MoE-GLUs と比較すると, 疎いMoEルーティングは, 計算をFFNから注目にシフトさせることができる。
我々は、この再分配を、専門家間でのFFN容量の削減とスパースパーティショニングに分解する。
クリティカルなことに、凍結したランダムなルーティングは、学習したルーティングとほぼ一致し、再配布はルータを学習した特殊化ではなく、アーキテクチャ上の疎結合によって行われることを示唆している。
二次的な発見として、GLUスタイルの乗法ゲーティングは、タスク関連フーリエ構造をニューロン単位から分散部分空間に回転させ、構造化計算を保存しながらニューロンレベルの解釈可能性を減らす。
パラメータマッチング,アクティベーション・ファンクション,ワイド・スケーリング分析など,ランダム・ルーティング,狭小FFN,トップ2 MoE コントロールを用いて,これらの結論を検証した。
これらの結果から,局所的なFFN設計選択はTransformer計算に非局所的な結果をもたらす可能性が示唆された。
関連論文リスト
- MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model [6.401952350014671]
拡散変換器(DiT)は拡散および流れマッチングモデルに広く用いられている。
DiTは同じ数のパッチ付きトークンを各ブロックで処理し、トレーニングプロセス中に比較的重い計算を行う。
マルチパッチトランスフォーマーの設計では、初期ブロックが大きめのパッチで動作し、粗いグローバルコンテキストをキャプチャし、後続ブロックはより小さなパッチを使用して局所的な詳細を精査する。
論文 参考訳(メタデータ) (2026-03-27T12:30:10Z) - GITO: Graph-Informed Transformer Operator for Learning Complex Partial Differential Equations [0.0]
複素偏微分方程式系を学習するための新しいグラフインフォームド・トランスフォーマ演算子(GITO)アーキテクチャを提案する。
GITOは、HGT(Hybrid graph transformer)とTNO(Transformer Neural operator)の2つの主要モジュールから構成される。
ベンチマークPDEタスクの実験的結果は、GITOが既存のトランスフォーマーベースのニューラル演算子より優れていることを示している。
論文 参考訳(メタデータ) (2025-06-16T18:35:45Z) - Scalable Forward-Forward Algorithm [1.9580473532948401]
本稿では,各レイヤを個別にトレーニングすることで,バックプロパゲーションの必要性を解消する,スケーラブルなフォワードフォワード(FF)アルゴリズムを提案する。
FFをMobileNetV3やResNet18のようなモダンな畳み込みアーキテクチャに拡張し、畳み込みレイヤの損失を計算する新しい方法を導入しました。
論文 参考訳(メタデータ) (2025-01-06T17:49:00Z) - Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。