論文の概要: SpikingBrain2.0: Brain-Inspired Foundation Models for Efficient Long-Context and Cross-Platform Inference
- arxiv url: http://arxiv.org/abs/2604.22575v1
- Date: Fri, 24 Apr 2026 14:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.490595
- Title: SpikingBrain2.0: Brain-Inspired Foundation Models for Efficient Long-Context and Cross-Platform Inference
- Title(参考訳): SpikingBrain2.0: 効率的なロングコンテキストとクロスプラットフォーム推論のためのブレインインスパイアされたファンデーションモデル
- Authors: Yuqi Pan, Jinghao Zhuang, Yupeng Feng, Fangzhi Zhong, Siyu Ding, Xuerui Qiu, Shaowei Gu, Bohan Sun, Zhiyong Qin, Yibo Zhong, Lingtao Ouyang, Kun Yang, Zehao Liu, Yuhong Chou, Shurong Wang, Anjie Hu, Han Xu, Bo Xu, Guoqi Li,
- Abstract要約: 主な課題は、最小限のトレーニングオーバーヘッドでパフォーマンスと長期コンテキストの効率を維持する基盤モデルを設計することである。
SpikingBrain2.0(SpB2.0)は,前任者のアーキテクチャとトレーニング効率を両立させる5Bモデルである。
- 参考スコア(独自算出の注目度): 28.709623208731028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling context length is reshaping large-model development, yet full-attention Transformers suffer from prohibitive computation and inference bottlenecks at long sequences. A key challenge is to design foundation models that maintain performance and long-context efficiency with minimal training overhead. We introduce SpikingBrain2.0 (SpB2.0), a 5B model that advances both architecture and training efficiency of its predecessor. Our contributions are two-fold. (1) Architectural Innovation: We propose Dual-Space Sparse Attention (DSSA), an inter-layer hybrid of Sparse Softmax Attention (MoBA) and Sparse Linear Attention (SSE), achieving an improved performance-efficiency trade-off for long-context modeling. SpB2.0 further supports dual quantization paths: INT8-Spiking coding enables sparse event-driven computation, while FP8 coding accelerates inference on modern GPUs. (2) Enhanced Training Strategy: We develop an optimized Transformer-to-Hybrid (T2H) pipeline with dual conversion paths for LLMs and VLMs using curated open-source data. Empirically, SpB2.0-5B and SpB2.0-VL-5B recover most of the base Transformer (Qwen3-4B) capability with under 7k A100 GPU hours. SpB2.0 achieves a 10.13x TTFT speedup at 4M context and supports over 10M tokens on 8 A100 GPUs under vLLM, where full-attention models exceed memory limits. It also demonstrates strong cross-platform compatibility, enabling FP8 GPU inference (2.52x speedup at 250k) and efficient neuromorphic execution (64.31% sparsity, with 70.6% and 46.5% area and power reduction at 500MHz). Overall, SpikingBrain2.0 provides a practical pathway for lightweight, multimodal, spiking foundation models, highlighting the potential of combining brain-inspired mechanisms with efficient architectures for resource-constrained and edge scenarios.
- Abstract(参考訳): コンテキスト長のスケーリングは、大規模なモデル開発を形作るが、フルアテンショントランスフォーマーは、長いシーケンスでの計算の禁止と推論のボトルネックに悩まされる。
重要な課題は、最小限のトレーニングオーバーヘッドでパフォーマンスと長期コンテキストの効率を維持する基盤モデルを設計することである。
SpikingBrain2.0(SpB2.0)は,前任者のアーキテクチャとトレーニング効率を両立させる5Bモデルである。
私たちの貢献は2倍です。
1) 建築革新: ソフトマックス・アテンション(MoBA)とスパース線形アテンション(SSE)の層間ハイブリッドであるDual-Space Sparse Attention(DSSA)を提案する。
SpB2.0はさらにデュアル量子化パスをサポートする: INT8-Spikingコーディングはスパースイベント駆動型計算を可能にし、FP8コーディングは現代的なGPUでの推論を加速する。
2) 強化トレーニング戦略: オープンソースのデータを用いて, LLM と VLM の二重変換経路を最適化した Transformer-to-Hybrid (T2H) パイプラインを開発する。
SpB2.0-5BとSpB2.0-VL-5Bは、ベーストランスフォーマー(Qwen3-4B)の能力を7k A100 GPU時間以下で回復する。
SpB2.0は4Mコンテキストで10.13倍のTTFTスピードアップを実現し、vLLMの8A100 GPU上で10万以上のトークンをサポートする。
また、FP8 GPU推論(250kでの2.52倍の高速化)と効率的なニューロモルフィック実行(64.31%の間隔、70.6%と46.5%の領域、500MHzでの電力削減)を可能にした。
全体として、SpikeBrain2.0は、軽量でマルチモーダルなスパイク基盤モデルのための実践的なパスを提供し、脳にインスパイアされたメカニズムと、リソース制約とエッジシナリオの効率的なアーキテクチャを組み合わせる可能性を強調している。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - SpikingBrain: Spiking Brain-inspired Large Models [42.41339012839023]
SpikingBrainは脳にインスパイアされたモデルの1つである。
線形 LLM である SpikingBrain-7B とハイブリッド線形 MoE LLM である SpikingBrain-76B の2つのモデルを開発した。
我々のモデルは、長期トレーニング効率を大幅に改善し、(部分的には)一定メモリとイベント駆動スパイクの振る舞いで推論を提供する。
論文 参考訳(メタデータ) (2025-09-05T17:34:00Z) - Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。