論文の概要: VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
- arxiv url: http://arxiv.org/abs/2511.18692v1
- Date: Mon, 24 Nov 2025 02:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.975844
- Title: VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
- Title(参考訳): フラッシュ中のVLM:ニューロンチャンキングによる視覚言語モデルのI/O能率スカラー化
- Authors: Kichang Yang, Seonjun Kim, Minjae Kim, Nairan Zhang, Chi Zhang, Youngki Lee,
- Abstract要約: 本稿では,チャンク上でのI/O効率のスペーシング戦略であるNeuron Chunkingについて述べる。
スパシフィケーション決定を基礎となる貯蔵挙動と整合させることで、ニューロロン・チャンキングはJetson Orin NanoとJetson AGX Orinの最大4.65倍および5.76倍のI/O効率を向上させる。
- 参考スコア(独自算出の注目度): 13.066026258660564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge deployment of large Vision-Language Models (VLMs) increasingly relies on flash-based weight offloading, where activation sparsification is used to reduce I/O overhead. However, conventional sparsification remains model-centric, selecting neurons solely by activation magnitude and neglecting how access patterns influence flash performance. We present Neuron Chunking, an I/O-efficient sparsification strategy that operates on chunks (i.e., groups of contiguous neurons in memory) and couples neuron importance with storage access cost. The method models I/O latency through a lightweight abstraction of access contiguity and selects chunks with high utility, defined as neuron importance normalized by estimated latency. By aligning sparsification decisions with the underlying storage behavior, Neuron Chunking improves I/O efficiency by up to 4.65x and 5.76x on Jetson Orin Nano and Jetson AGX Orin, respectively.
- Abstract(参考訳): 大型ビジョンランゲージモデル(VLM)のエッジ展開はフラッシュベースの重量オフロードにますます依存しており、I/Oオーバーヘッドを減らすためにアクティベーションスペーシフィケーションが使用される。
しかし、従来のスペーシフィケーションはモデル中心であり、アクティベーションの規模によってのみ神経細胞を選択し、アクセスパターンがフラッシュ性能にどのように影響するかを無視している。
我々はI/O効率のスペーサー化戦略であるニューロ・チャンキング(Neuron Chunking)を,チャンク(メモリ内の連続ニューロン群)で動作させ,記憶アクセスコストに重きを置く。
提案手法は、アクセス整合性の軽量な抽象化を通じてI/Oレイテンシをモデル化し、推定レイテンシによって正規化されたニューロン重要度として定義される高ユーティリティのチャンクを選択する。
スパシフィケーション決定を基礎となる貯蔵挙動と整合させることで、ニューロロン・チャンキングはJetson Orin NanoとJetson AGX Orinの最大4.65倍および5.76倍のI/O効率を向上させる。
関連論文リスト
- NeuroAda: Activating Each Neuron's Potential for Parameter-Efficient Fine-Tuning [18.1179807699825]
NeuroAdaは、高メモリ効率を維持しながらきめ細かなモデル微調整を可能にする新しいPEFT法である。
NeuroAdaは、トレーニング可能なパラメータをわずか$leq0.02%で実現し、メモリ使用量を最大60%削減できることを示す。
論文 参考訳(メタデータ) (2025-10-21T17:59:24Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [86.28783985254431]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - DA-LIF: Dual Adaptive Leaky Integrate-and-Fire Model for Deep Spiking Neural Networks [5.832445095443944]
スパイキングニューラルネットワーク(SNN)は、時間的情報を効率的に処理する能力によって評価される。
本稿では,独立に学習可能な減衰を伴う空間的・時間的チューニングを導入したDual Leaky Integrate-and-Fire(DA-LIF)モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T09:02:07Z) - Multiplication-Free Parallelizable Spiking Neurons with Efficient Spatio-Temporal Dynamics [40.43988645674521]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューラルネットワークにインスパイアされた複雑な神経力学とスパースバイナリアクティベーション(スパイクス)によって、ニューラルネットワーク(ANN)と区別される。
従来のニューロンモデルは反復的なステップバイステップのダイナミクスを使用し、シリアル計算とSNNの遅いトレーニング速度をもたらす。
近年、SNNの訓練を加速するために、グラフィックス処理ユニットの大規模並列計算能力をフル活用するために並列化可能なスパイクニューロンモデルが提案されている。
論文 参考訳(メタデータ) (2025-01-24T13:44:08Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - Maxwell's Demon at Work: Efficient Pruning by Leveraging Saturation of
Neurons [27.289945121113277]
死ニューロンの増殖を動的に制御するDemPを導入する。
CIFAR10とImageNetデータセットの実験では、精度とスパーシリティのトレードオフが優れている。
論文 参考訳(メタデータ) (2024-03-12T14:28:06Z) - Sharing Leaky-Integrate-and-Fire Neurons for Memory-Efficient Spiking
Neural Networks [9.585985556876537]
Leaky-Integrate-and-Fire(LIF)ニューロンの非線形活性化は、スパイクの時間的ダイナミクスを捉えるために膜電圧を保持するために追加のメモリを必要とする。
本稿では,LIFニューロンを異なる層とチャネルで共有する,シンプルで効果的なLIF-Netを提案する。
EfficientLIF-Netは、標準的なSNNと同等の精度を実現し、LIFニューロンの4.3倍の前方メモリ効率と21.9倍の後方メモリ効率を実現した。
論文 参考訳(メタデータ) (2023-05-26T22:55:26Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。