Fugu-MT 論文翻訳(概要): MAR: Efficient Large Language Models via Module-aware Architecture Refinement

論文の概要: MAR: Efficient Large Language Models via Module-aware Architecture Refinement

arxiv url: http://arxiv.org/abs/2601.21503v1
Date: Thu, 29 Jan 2026 10:21:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 16:22:49.729275
Title: MAR: Efficient Large Language Models via Module-aware Architecture Refinement
Title（参考訳）: MAR:モジュール・アウェア・アーキテクチャ・リファインメントによる効率的な大規模言語モデル
Authors: Junhong Cai, Guiqin Wang, Kejie Zhao, Jianxiong Tang, Xiang Wang, Luziwei Leng, Ran Cheng, Yuxin Ma, Qinghai Guo,
Abstract要約: 大規模言語モデル(LLM)は様々な領域にまたがるが、二次的な注意と高密度フィードフォワードネットワーク(FFN)の運用により高いエネルギーコストに悩まされる。本稿では, 線形時間列モデリングのための状態空間モデル(SSM)を統合し, FFNコストを削減するためにアクティベーションスペーシフィケーションを適用した,モジュール対応アーキテクチャ再ファインメント(MAR)を提案する。
参考スコア（独自算出の注目度）: 27.413577161712876
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) excel across diverse domains but suffer from high energy costs due to quadratic attention and dense Feed-Forward Network (FFN) operations. To address these issues, we propose Module-aware Architecture Refinement (MAR), a two-stage framework that integrates State Space Models (SSMs) for linear-time sequence modeling and applies activation sparsification to reduce FFN costs. In addition, to mitigate low information density and temporal mismatch in integrating Spiking Neural Networks (SNNs) with SSMs, we design the Adaptive Ternary Multi-step Neuron (ATMN) and the Spike-aware Bidirectional Distillation Strategy (SBDS). Extensive experiments demonstrate that MAR effectively restores the performance of its dense counterpart under constrained resources while substantially reducing inference energy consumption. Furthermore, it outperforms efficient models of comparable or even larger scale, underscoring its potential for building efficient and practical LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々な領域にまたがるが、二次的な注意と高密度フィードフォワードネットワーク(FFN)の運用により高いエネルギーコストに悩まされる。これらの問題に対処するため,我々は,線形時間列モデリングのための状態空間モデル(SSM)を統合し,FFNコストを削減するためにアクティベーションスペーシフィケーションを適用した2段階フレームワークであるモジュール対応アーキテクチャリファインメント(MAR)を提案する。さらに、スポーキングニューラルネットワーク(SNN)とSSMを統合する際の低情報密度と時間的ミスマッチを軽減するために、適応三段階多段階ニューロン(ATMN)とスパイク対応二方向蒸留戦略(SBDS)を設計する。大規模な実験により、MARは制約された資源下での密度の高い相手の性能を効果的に回復し、推論エネルギー消費量を大幅に削減することを示した。さらに、同等またはそれ以上のスケールの効率的なモデルよりも優れており、効率的で実用的なLCMを構築する可能性を示している。

論文の概要: MAR: Efficient Large Language Models via Module-aware Architecture Refinement

関連論文リスト