論文の概要: SpikingBrain Technical Report: Spiking Brain-inspired Large Models
- arxiv url: http://arxiv.org/abs/2509.05276v1
- Date: Fri, 05 Sep 2025 17:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.671527
- Title: SpikingBrain Technical Report: Spiking Brain-inspired Large Models
- Title(参考訳): SpikingBrainの技術レポート:脳にインスパイアされた大型モデル
- Authors: Yuqi Pan, Yupeng Feng, Jinghao Zhuang, Siyu Ding, Zehao Liu, Bohan Sun, Yuhong Chou, Han Xu, Xuerui Qiu, Anlin Deng, Anjie Hu, Peng Zhou, Man Yao, Jibin Wu, Jian Yang, Guoliang Sun, Bo Xu, Guoqi Li,
- Abstract要約: SpikingBrainは脳にインスパイアされたモデルの1つである。
線形 LLM である SpikingBrain-7B とハイブリッド線形 MoE LLM である SpikingBrain-76B の2つのモデルを開発した。
我々のモデルは、長期トレーニング効率を大幅に改善し、(部分的には)一定メモリとイベント駆動スパイクの振る舞いで推論を提供する。
- 参考スコア(独自算出の注目度): 42.41339012839023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream Transformer-based large language models face major efficiency bottlenecks: training computation scales quadratically with sequence length, and inference memory grows linearly, limiting long-context processing. Building large models on non-NVIDIA platforms also poses challenges for stable and efficient training. To address this, we introduce SpikingBrain, a family of brain-inspired models designed for efficient long-context training and inference. SpikingBrain leverages the MetaX GPU cluster and focuses on three aspects: (1) Model Architecture: linear and hybrid-linear attention architectures with adaptive spiking neurons; (2) Algorithmic Optimizations: an efficient, conversion-based training pipeline and a dedicated spike coding framework; (3) System Engineering: customized training frameworks, operator libraries, and parallelism strategies tailored to MetaX hardware. Using these techniques, we develop two models: SpikingBrain-7B, a linear LLM, and SpikingBrain-76B, a hybrid-linear MoE LLM. These models demonstrate the feasibility of large-scale LLM development on non-NVIDIA platforms. SpikingBrain achieves performance comparable to open-source Transformer baselines while using only about 150B tokens for continual pre-training. Our models significantly improve long-sequence training efficiency and deliver inference with (partially) constant memory and event-driven spiking behavior. For example, SpikingBrain-7B attains over 100x speedup in Time to First Token for 4M-token sequences. Training remains stable for weeks on hundreds of MetaX C550 GPUs, with the 7B model reaching a Model FLOPs Utilization of 23.4 percent. The proposed spiking scheme achieves 69.15 percent sparsity, enabling low-power operation. Overall, this work demonstrates the potential of brain-inspired mechanisms to drive the next generation of efficient and scalable large model design.
- Abstract(参考訳): メインストリームトランスフォーマーベースの大規模言語モデルは、トレーニング計算スケールとシーケンス長の2乗スケール、推論メモリは線形に増加し、長文処理が制限されるなど、大きな効率ボトルネックに直面している。
NVIDIA以外のプラットフォームで大規模なモデルを構築することも、安定的で効率的なトレーニングの課題となる。
これを解決するために,脳にインスパイアされたモデルであるSpkingBrainを紹介した。
モデルアーキテクチャ: 線形およびハイブリッド線形の注意アーキテクチャと適応的なスパイキングニューロン、アルゴリズム最適化: 効率的で変換ベースのトレーニングパイプラインと専用のスパイクコーディングフレームワーク、システムエンジニアリング: カスタマイズされたトレーニングフレームワーク、オペレータライブラリ、およびMetaXハードウェアに適した並列性戦略。
これらの手法を用いて,線形LEMであるSpikeBrain-7Bとハイブリッド線形MOE LLMであるSpikeBrain-76Bの2つのモデルを開発した。
これらのモデルは、NVIDIA以外のプラットフォーム上での大規模LLM開発の実現可能性を示している。
SpikingBrainは、オープンソースのTransformerベースラインに匹敵するパフォーマンスを実現し、継続事前トレーニングには約150Bトークンを使用する。
我々のモデルは、長期トレーニング効率を大幅に改善し、(部分的には)一定メモリとイベント駆動スパイクの振る舞いで推論を提供する。
例えば、SpkingBrain-7Bは4MトークンシーケンスでTime to First Tokenの100倍以上のスピードアップを実現している。
トレーニングは数百のMetaX C550 GPU上で数週間安定しており、7BモデルはモデルFLOPsの利用率23.4%に達した。
提案されたスパイキング方式は69.15%のスパシティを実現し、低消費電力運転を可能にする。
全体として、この研究は、次世代の効率的でスケーラブルな大規模モデル設計を推進する脳にインスパイアされたメカニズムの可能性を示している。
関連論文リスト
- LongCat-Flash Technical Report [165.66422346171862]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。
計算効率と高度なエージェント能力の両方のために設計されている。
30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (2025-09-01T10:05:45Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - MoE Parallel Folding: Heterogeneous Parallelism Mappings for Efficient Large-Scale MoE Model Training with Megatron Core [11.40633051522406]
大規模MOEモデルのエンドツーエンドトレーニングフレームワークを提案する。
MoE Parallel Foldingは、Transformerモデルにおける注目とMoEの並列化を分離する新しい戦略である。
フレキシブルなトークンレベルディスパッチはトークンドロップとトークンドロップレスのMoEトレーニングの両方をサポートする。
論文 参考訳(メタデータ) (2025-04-21T08:39:47Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。