論文の概要: Dynamic sparsity in tree-structured feed-forward layers at scale
- arxiv url: http://arxiv.org/abs/2604.08565v1
- Date: Wed, 18 Mar 2026 09:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.425804
- Title: Dynamic sparsity in tree-structured feed-forward layers at scale
- Title(参考訳): 大規模木構造フィードフォワード層における動的疎水性
- Authors: Reza Sedghi, Robin Schiewer, Anand Subramoney, David Kappel,
- Abstract要約: 深部変圧器アーキテクチャにおけるブロックのドロップイン置換として, スパース, ツリー構造を有するフィードフォワード層について検討した。
自動回帰言語モデリングやダウンストリーム質問応答において,この条件空間が適用可能であることを初めて実証した。
- 参考スコア(独自算出の注目度): 0.869928033942254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At typical context lengths, the feed-forward MLP block accounts for a large share of a transformer's compute budget, motivating sparse alternatives to dense MLP blocks. We study sparse, tree-structured feed-forward layers as drop-in replacements for MLP blocks in deep transformer architectures, enabling conditional computation via hard hierarchical routing without a separate router network. We demonstrate for the first time that this form of tree-structured conditional sparsity can be applied for autoregressive language modeling and downstream question answering, including zero- and few-shot settings, and its scalability beyond 1B parameters. Despite activating fewer than 5% of the feed-forward block's units per token, our models match dense baselines under controlled training and fine-tuning protocols. We further analyze training dynamics and identify an emergent auto-pruning effect: the interaction of hard routing with asymmetric nonlinearities progressively deactivates unused paths, yielding partial conversion of dynamic routing into static structural sparsity. We show that simple architectural choices can modulate this behavior and recover balanced trees without auxiliary losses. Overall, our work demonstrates that tree-structured feed-forward layers provide a scalable and controllable mechanism for sparsifying large transformer models.
- Abstract(参考訳): 典型的な文脈長では、フィードフォワード MLP ブロックはトランスフォーマーの計算予算の大部分を占めており、密度の高い MLP ブロックに対してスパースな代替手段を動機付けている。
本研究では, 深いトランスアーキテクチャにおいて, MLPブロックのドロップイン置換として, 分離したルータネットワークを使わずに, ハード階層的ルーティングによる条件計算を実現するために, スパース, ツリー構造化フィードフォワード層について検討する。
本稿では,この木構造条件空間が,ゼロおよび少数ショット設定を含む自動回帰言語モデリングやダウンストリーム質問応答,および1Bパラメータを超える拡張性に応用できることを示す。
トークン当たりのフィードフォワードブロックの単位の5%以下を活性化するにもかかわらず、我々のモデルは制御されたトレーニングおよび微調整プロトコルの下で密度の高いベースラインと一致する。
さらに、トレーニングのダイナミクスを分析し、非対称な非線形性とハードルーティングの相互作用によって、未使用経路が徐々に非活性化され、動的ルーティングが静的な構造空間に部分的に変換されるという、創発的なオートプルーニング効果を同定する。
簡単な設計上の選択は、この挙動を調節し、補助的な損失を伴わずにバランスのとれた木を復元できることが示される。
全体として、我々は、木構造フィードフォワード層が大きなトランスフォーマーモデルを分散化するためのスケーラブルで制御可能なメカニズムを提供することを示した。
関連論文リスト
- Path-Constrained Mixture-of-Experts [23.80197713200086]
MoEルーティングは各レイヤの専門家を独立して選択する。
本稿では,連続層にまたがるルータパラメータを共有するパスモエを提案する。
0.9Bおよび16Bパラメータモデルの実験では、独立ルーティングよりも複雑なタスクと下流タスクが一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-03-18T21:35:53Z) - Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - Sparse Attention Post-Training for Mechanistic Interpretability [55.030850996535776]
本稿では,トランスフォーマーの注意を犠牲にすることなく,簡易なポストトレーニング手法を提案する。
制約された余剰目的の下でフレキシブルな空間規則化を適用することで、1Bパラメータまでのモデルで、初期トレーニング損失を抑えつつ、注意接続性を$approx 0.3 %に抑えることができることを示す。
論文 参考訳(メタデータ) (2025-12-05T16:40:08Z) - Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。