Fugu-MT 論文翻訳(概要): SymbolicLight V1: Spike-Gated Dual-Path Language Modeling with High Activation Sparsity and Sub-Billion-Scale Pre-Training Evidence

論文の概要: SymbolicLight V1: Spike-Gated Dual-Path Language Modeling with High Activation Sparsity and Sub-Billion-Scale Pre-Training Evidence

arxiv url: http://arxiv.org/abs/2605.21333v1
Date: Wed, 20 May 2026 16:00:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.767624
Title: SymbolicLight V1: Spike-Gated Dual-Path Language Modeling with High Activation Sparsity and Sub-Billion-Scale Pre-Training Evidence
Title（参考訳）: SymbolicLight V1: ハイアクティベーションスペシャリティとサブビリオンスケール事前トレーニングエビデンスを備えたスパイク付きデュアルパス言語モデリング
Authors: Ting Liu,
Abstract要約: SymbolicLight V1はスパイクゲートのデュアルパス言語モデルである。バイナリのLeaky Integrate-and-Fireスパイクダイナミクスと連続的な残留ストリームを組み合わせたものだ。 PPL 8.88-8.93は4つの独立した実行で1要素あたりのアクティベーション間隔が89%である。
参考スコア（独自算出の注目度）: 8.419155861590548
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natively trained spiking language models struggle to combine Transformer-like language quality, stable multi-domain pre-training, and high activation sparsity. We present SymbolicLight V1, a spike-gated dual-path language model that combines binary Leaky Integrate-and-Fire spike dynamics with a continuous residual stream. Its Dual-Path SparseTCAM module replaces dense self-attention with an exponential-decay aggregation path for long-range memory and a spike-gated local attention path for short-range precision, complemented by a dynamic context-conditioned decoding head and a bilingual tokenizer. A 194M-parameter SymbolicLight V1 model trained from scratch on a 3B-token Chinese-English corpus reaches held-out validation PPL 8.88-8.93 across four independent runs at >89% per-element activation sparsity. It trails GPT-2 201M by 7.7% in PPL while surpassing GPT-2 124M under the reported comparison. Component ablations at matched 0.5B-token training budgets show that the spike-gated local attention path is the largest contributor, and that replacing LIF dynamics with a deterministic top-k mask at matched sparsity causes a larger degradation, indicating that temporal integration rather than sparsity alone drives performance. We also report a 0.8B-parameter scale-up run trained on 48.8B tokens as evidence of optimization and sparsity preservation, not as a primary quality comparison. Current dense-hardware inference is slower than GPT-2, so neuromorphic deployment is presented as a future sparsity-driven opportunity rather than an achieved hardware speedup.
Abstract（参考訳）: ネイティブトレーニングされたスパイク言語モデルは、Transformerのような言語品質、安定したマルチドメイン事前トレーニング、高いアクティベーション間隔を組み合わせるのに苦労している。連立Leaky積分と火のスパイクダイナミクスを連続的残差ストリームと組み合わせたスパイクゲートデュアルパス言語モデルであるSybolicLight V1を提案する。そのDual-Path SparseTCAMモジュールは、高密度な自己アテンションを、長距離メモリ用の指数デカイ集約パス、短距離精度のためのスパイクゲート局所アテンションパスに置き換え、動的コンテキスト条件付きデコードヘッドとバイリンガルトークンライザで補完する。 194MパラメトリックシンボリックライトV1モデルは、3Bトーケンの中国語コーパスでスクラッチから訓練され、4つの独立したアクティベーション間隔で89%まで独立してPPL 8.88-8.93に到達した。 GPT-2 201Mを7.7%上回り、GPT-2 124Mを上回っている。一致した0.5Bのトレーニング予算におけるコンポーネントの短縮は、スパイクゲートされたローカルアテンションパスが最大のコントリビュータであり、マッチしたスパーシティにおいてLIFダイナミクスを決定論的トップkマスクに置き換えることにより、スパーシティのみではなく一時的な統合によってパフォーマンスが向上することを示している。また,48.8Bトークンでトレーニングした0.8Bパラメータスケールアップを,一次品質比較ではなく,最適化と空間保存の証拠として報告した。現在の高密度ハードウェア推論は GPT-2 よりも遅いため、ニューロモルフィックデプロイメントは、ハードウェアの高速化よりも将来的なスパーシティ駆動の機会として提示される。

関連論文リスト

LAAF: Logic-layer Automated Attack Framework A Systematic Red-Teaming Methodology for LPCI Vulnerabilities in Agentic Large Language Model Systems [0.39875976220956705]
LAAFは、LPCI固有のテクニックと段階的なシードエスカレーションを組み合わせた最初の自動化赤チームフレームワークである。 LAAFは単技術ランダムテストよりも高いステージブレークスルー効率が得られることを示す。
論文参考訳（メタデータ） (2026-03-18T00:51:36Z)
ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping [26.560813832545563]
拡散大言語モデル(dLLMs)は、自己回帰モデル(ARMs)に代わる有望な選択肢として浮上している。我々は、dLLMの生成ダイナミクスを分析し、キー、値、隠された状態を含む中間表現が連続するイテレーション間でのみ微妙に変化することを発見した。我々は,dLLMのトレーニング不要な推論高速化フレームワークである textbfES-dLLM を提案する。
論文参考訳（メタデータ） (2026-03-10T14:31:19Z)
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。 1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文参考訳（メタデータ） (2026-02-12T09:37:05Z)
LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。 LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文参考訳（メタデータ） (2026-01-30T06:44:33Z)
Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。 GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文参考訳（メタデータ） (2026-01-12T20:33:39Z)
Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning [73.10669391954801]
本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。 32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
論文参考訳（メタデータ） (2025-10-22T07:59:38Z)
LLMCARE: early detection of cognitive impairment via transformer models enhanced by LLM-generated synthetic data [32.69241041313969]
アルツハイマー病と関連する認知症は、米国で500万人近い高齢者に影響を及ぼす。本研究は,トランスフォーマー埋め込みと手作り言語的特徴を融合した音声ベースのスクリーニングパイプラインを開発し,評価する。
論文参考訳（メタデータ） (2025-08-08T13:44:55Z)
DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference [19.987309147268586]
デルタLLMは、リソース制約エッジデバイス上での効率的なLCM推論を実現するために、注意パターンの時間的間隔を利用する訓練不要のフレームワークである。我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
論文参考訳（メタデータ） (2025-07-25T18:23:18Z)
Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文参考訳（メタデータ） (2025-06-07T03:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。