論文の概要: SpikeMLLM: Spike-based Multimodal Large Language Models via Modality-Specific Temporal Scales and Temporal Compression
- arxiv url: http://arxiv.org/abs/2604.18610v1
- Date: Mon, 13 Apr 2026 15:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.35245
- Title: SpikeMLLM: Spike-based Multimodal Large Language Models via Modality-Specific Temporal Scales and Temporal Compression
- Title(参考訳): SpikeMLLM:Modality-Specific Temporal Scales と Temporal Compressionによるスパイクに基づくマルチモーダル言語モデル
- Authors: Han Xu, Zhiyong Qin, Di Shang, Jiahong Zhang, Xuerui Qiu, Bo Lei, Tiejun Huang, Bo Xu, Guoqi Li,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェアに固有のエネルギー効率の利点を提供する。
MLLMの最初のスパイクベースフレームワークであるSpikeMLLMを提案する。
この結果から,SpikeMLLMはアグレッシブ・タイムステップ圧縮下でほぼ無作為な性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 46.709828328948724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress but incur substantial computational overhead and energy consumption during inference, limiting deployment in resource-constrained environments. Spiking Neural Networks (SNNs), with their sparse event-driven computation, offer inherent energy efficiency advantages on neuromorphic hardware, yet extending them to MLLMs faces two key challenges: heterogeneous modalities make uniform spike encoding insufficient, and high-resolution image inputs amplify timestep unfolding overhead. We propose SpikeMLLM, the first spike-based framework for MLLMs, which unifies existing ANN quantization methods in the spiking representation space and incorporates Modality-Specific Temporal Scales (MSTS) guided by Modality Evolution Discrepancy (MED) and Temporally Compressed LIF (TC-LIF) for timestep compression from T=L-1 to T=log2(L)-1. Experiments on four representative MLLMs across diverse multimodal benchmarks show that SpikeMLLM maintains near-lossless performance under aggressive timestep compression (Tv/Tt=3/4), with average gaps of only 0.72% and 1.19% relative to the FP16 baseline on InternVL2-8B and Qwen2VL-72B. We further develop a dedicated RTL accelerator tailored to the spike-driven datapath, observing 9.06x higher throughput and 25.8x better power efficiency relative to an FP16 GPU baseline under a deployment-oriented co-design setting, suggesting the promise of algorithm-hardware co-design for efficient multimodal intelligence.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は大きな進歩を遂げているが、推論中にかなりの計算オーバーヘッドとエネルギー消費を発生させ、資源制約のある環境への展開を制限している。
スパイキングニューラルネットワーク(SNN)は、イベント駆動の計算が少ないため、ニューロモルフィックハードウェアに固有のエネルギー効率上の利点を提供するが、MLLMに拡張することは、2つの大きな課題に直面している。
MLLMの最初のスパイクベースのフレームワークであるSpikeMLLMは、スパイク表現空間における既存のANN量子化手法を統一し、T=L-1からT=log2(L)-1までのタイムステップ圧縮のために、Modality Evolution Discrepancy(MED)とT=TC-LIF(TC-LIF)によって導かれるModality-Specific Temporal Scales(MSTS)を組み込む。
様々なマルチモーダルベンチマークによる4つの代表的MLLMの実験では、SpikeMLLMはアグレッシブなタイムステップ圧縮(Tv/Tt=3/4)の下でほぼロスレス性能を維持しており、平均的なギャップはInternVL2-8BとQwen2VL-72BのFP16ベースラインに対してわずか0.72%と1.19%である。
さらに、スパイク駆動型データパスに合わせた専用のRTLアクセラレータを開発し、デプロイ指向のコデザイン設定の下でFP16 GPUベースラインと比較して9.06倍高いスループットと25.8倍の電力効率を観測し、効率的なマルチモーダルインテリジェンスのためのアルゴリズムハードウェアの共同設計の可能性を示唆している。
関連論文リスト
- Spike-driven Large Language Model [49.52947423982696]
スパイキングニューラルネットワーク(SNN)はスパイク駆動特性を持つ。
現在のLarge Language Models (LLM) は主に大規模密度行列乗法に基づいている。
本研究では,スパース加算操作により高密度行列乗算を除去するスパイク駆動型大規模言語モデルであるSDLLMを提案する。
論文 参考訳(メタデータ) (2026-04-11T17:58:35Z) - LoopLLM: Transferable Energy-Latency Attacks in LLMs via Repetitive Generation [28.143537154570723]
大規模言語モデル(LLM)がスケールするにつれて、その推論はかなりの計算資源を発生させ、それらがエネルギー遅延攻撃に晒される。
繰り返し生成が低エントロピーデコードループを発生させるという観測に基づくエネルギー遅延攻撃フレームワークであるLoopLLMを提案する。
論文 参考訳(メタデータ) (2025-11-11T06:24:49Z) - Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-09-16T11:33:20Z) - IML-Spikeformer: Input-aware Multi-Level Spiking Transformer for Speech Processing [38.632763514823864]
IML-Spikeformerは大規模音声処理用に設計されたスパイクトランスフォーマーアーキテクチャである。
IML-SpikeformerはAiShell-1では6.0%、Libri-960では3.4%というワードエラー率を達成した。
論文 参考訳(メタデータ) (2025-07-10T03:26:24Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space [61.091910046492345]
$lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
論文 参考訳(メタデータ) (2024-02-07T19:07:10Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。