論文の概要: MAR: Efficient Large Language Models via Module-aware Architecture Refinement
- arxiv url: http://arxiv.org/abs/2601.21503v1
- Date: Thu, 29 Jan 2026 10:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.729275
- Title: MAR: Efficient Large Language Models via Module-aware Architecture Refinement
- Title(参考訳): MAR:モジュール・アウェア・アーキテクチャ・リファインメントによる効率的な大規模言語モデル
- Authors: Junhong Cai, Guiqin Wang, Kejie Zhao, Jianxiong Tang, Xiang Wang, Luziwei Leng, Ran Cheng, Yuxin Ma, Qinghai Guo,
- Abstract要約: 大規模言語モデル(LLM)は様々な領域にまたがるが、二次的な注意と高密度フィードフォワードネットワーク(FFN)の運用により高いエネルギーコストに悩まされる。
本稿では, 線形時間列モデリングのための状態空間モデル(SSM)を統合し, FFNコストを削減するためにアクティベーションスペーシフィケーションを適用した,モジュール対応アーキテクチャ再ファインメント(MAR)を提案する。
- 参考スコア(独自算出の注目度): 27.413577161712876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel across diverse domains but suffer from high energy costs due to quadratic attention and dense Feed-Forward Network (FFN) operations. To address these issues, we propose Module-aware Architecture Refinement (MAR), a two-stage framework that integrates State Space Models (SSMs) for linear-time sequence modeling and applies activation sparsification to reduce FFN costs. In addition, to mitigate low information density and temporal mismatch in integrating Spiking Neural Networks (SNNs) with SSMs, we design the Adaptive Ternary Multi-step Neuron (ATMN) and the Spike-aware Bidirectional Distillation Strategy (SBDS). Extensive experiments demonstrate that MAR effectively restores the performance of its dense counterpart under constrained resources while substantially reducing inference energy consumption. Furthermore, it outperforms efficient models of comparable or even larger scale, underscoring its potential for building efficient and practical LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な領域にまたがるが、二次的な注意と高密度フィードフォワードネットワーク(FFN)の運用により高いエネルギーコストに悩まされる。
これらの問題に対処するため,我々は,線形時間列モデリングのための状態空間モデル(SSM)を統合し,FFNコストを削減するためにアクティベーションスペーシフィケーションを適用した2段階フレームワークであるモジュール対応アーキテクチャリファインメント(MAR)を提案する。
さらに、スポーキングニューラルネットワーク(SNN)とSSMを統合する際の低情報密度と時間的ミスマッチを軽減するために、適応三段階多段階ニューロン(ATMN)とスパイク対応二方向蒸留戦略(SBDS)を設計する。
大規模な実験により、MARは制約された資源下での密度の高い相手の性能を効果的に回復し、推論エネルギー消費量を大幅に削減することを示した。
さらに、同等またはそれ以上のスケールの効率的なモデルよりも優れており、効率的で実用的なLCMを構築する可能性を示している。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。
ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-09T19:13:03Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - IMDeception: Grouped Information Distilling Super-Resolution Network [7.6146285961466]
SISR(Single-Image-Super-Resolution)は、ディープラーニング手法の最近の進歩の恩恵を受けている古典的なコンピュータビジョン問題である。
本稿では,機能集約のためのIICモジュールの代替として,GPRM(Global Progressive Refinement Module)を提案する。
また,1秒あたりのパラメータ数や浮動小数点演算量(FLOPS)をさらに削減するために,GIDB(Grouped Information Distilling Blocks)を提案する。
実験の結果,提案したネットワークは,パラメータ数やFLOPSが限られているにもかかわらず,最先端モデルと同等に動作していることがわかった。
論文 参考訳(メタデータ) (2022-04-25T06:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。