論文の概要: VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
- arxiv url: http://arxiv.org/abs/2511.18692v1
- Date: Mon, 24 Nov 2025 02:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.975844
- Title: VLM in a flash: I/O-Efficient Sparsification of Vision-Language Model via Neuron Chunking
- Title(参考訳): フラッシュ中のVLM:ニューロンチャンキングによる視覚言語モデルのI/O能率スカラー化
- Authors: Kichang Yang, Seonjun Kim, Minjae Kim, Nairan Zhang, Chi Zhang, Youngki Lee,
- Abstract要約: 本稿では,チャンク上でのI/O効率のスペーシング戦略であるNeuron Chunkingについて述べる。
スパシフィケーション決定を基礎となる貯蔵挙動と整合させることで、ニューロロン・チャンキングはJetson Orin NanoとJetson AGX Orinの最大4.65倍および5.76倍のI/O効率を向上させる。
- 参考スコア(独自算出の注目度): 13.066026258660564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Edge deployment of large Vision-Language Models (VLMs) increasingly relies on flash-based weight offloading, where activation sparsification is used to reduce I/O overhead. However, conventional sparsification remains model-centric, selecting neurons solely by activation magnitude and neglecting how access patterns influence flash performance. We present Neuron Chunking, an I/O-efficient sparsification strategy that operates on chunks (i.e., groups of contiguous neurons in memory) and couples neuron importance with storage access cost. The method models I/O latency through a lightweight abstraction of access contiguity and selects chunks with high utility, defined as neuron importance normalized by estimated latency. By aligning sparsification decisions with the underlying storage behavior, Neuron Chunking improves I/O efficiency by up to 4.65x and 5.76x on Jetson Orin Nano and Jetson AGX Orin, respectively.
- Abstract(参考訳): 大型ビジョンランゲージモデル(VLM)のエッジ展開はフラッシュベースの重量オフロードにますます依存しており、I/Oオーバーヘッドを減らすためにアクティベーションスペーシフィケーションが使用される。
しかし、従来のスペーシフィケーションはモデル中心であり、アクティベーションの規模によってのみ神経細胞を選択し、アクセスパターンがフラッシュ性能にどのように影響するかを無視している。
我々はI/O効率のスペーサー化戦略であるニューロ・チャンキング(Neuron Chunking)を,チャンク(メモリ内の連続ニューロン群)で動作させ,記憶アクセスコストに重きを置く。
提案手法は、アクセス整合性の軽量な抽象化を通じてI/Oレイテンシをモデル化し、推定レイテンシによって正規化されたニューロン重要度として定義される高ユーティリティのチャンクを選択する。
スパシフィケーション決定を基礎となる貯蔵挙動と整合させることで、ニューロロン・チャンキングはJetson Orin NanoとJetson AGX Orinの最大4.65倍および5.76倍のI/O効率を向上させる。
関連論文リスト
- Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision [0.0]
スパイキングニューラルネットワーク(SNN)に基づくニューロモルフィック視覚システムは、イベントベースおよびフレームベースのカメラに対して超低消費電力の知覚を提供する。
既存の継続学習手法は、主に人工知能ニューラルネットワーク向けに開発されており、精度とエネルギー効率を共同で最適化することはめったにない。
本研究では,連続的なSNN学習のためのエネルギーを意識したスパイク予算化フレームワークを提案する。これは,経験の再現,学習可能なインテグレート・アンド・ファイア・ニューロンパラメータ,およびデータセット固有のエネルギー制約を強制するための適応スパイクススケジューラを提案する。
論文 参考訳(メタデータ) (2026-02-12T18:15:32Z) - Resting Neurons, Active Insights: Improving Input Sparsification for Large Language Models [42.12574676719046]
大規模言語モデル(LLM)は、幅広いアプリケーションにわたって最先端のパフォーマンスを達成する。
構造的プルーニングは、ニューロンなどの冗長な計算単位を除去することでモデルサイズを小さくし、解法として広く研究されている。
本研究は,入力毎の入力値のサブセットのみを選択的に活性化することにより効率を向上する手法である入力スペーシフィケーションに注力する。
論文 参考訳(メタデータ) (2025-12-14T15:47:40Z) - NeuroAda: Activating Each Neuron's Potential for Parameter-Efficient Fine-Tuning [18.1179807699825]
NeuroAdaは、高メモリ効率を維持しながらきめ細かなモデル微調整を可能にする新しいPEFT法である。
NeuroAdaは、トレーニング可能なパラメータをわずか$leq0.02%で実現し、メモリ使用量を最大60%削減できることを示す。
論文 参考訳(メタデータ) (2025-10-21T17:59:24Z) - Spark Transformer: Reactivating Sparsity in FFN and Attention [53.221448818147024]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文 参考訳(メタデータ) (2025-06-07T03:51:13Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [86.28783985254431]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - DA-LIF: Dual Adaptive Leaky Integrate-and-Fire Model for Deep Spiking Neural Networks [5.832445095443944]
スパイキングニューラルネットワーク(SNN)は、時間的情報を効率的に処理する能力によって評価される。
本稿では,独立に学習可能な減衰を伴う空間的・時間的チューニングを導入したDual Leaky Integrate-and-Fire(DA-LIF)モデルを提案する。
論文 参考訳(メタデータ) (2025-02-05T09:02:07Z) - Multiplication-Free Parallelizable Spiking Neurons with Efficient Spatio-Temporal Dynamics [40.43988645674521]
スパイキングニューラルネットワーク(SNN)は、生物学的ニューラルネットワークにインスパイアされた複雑な神経力学とスパースバイナリアクティベーション(スパイクス)によって、ニューラルネットワーク(ANN)と区別される。
従来のニューロンモデルは反復的なステップバイステップのダイナミクスを使用し、シリアル計算とSNNの遅いトレーニング速度をもたらす。
近年、SNNの訓練を加速するために、グラフィックス処理ユニットの大規模並列計算能力をフル活用するために並列化可能なスパイクニューロンモデルが提案されている。
論文 参考訳(メタデータ) (2025-01-24T13:44:08Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - Maxwell's Demon at Work: Efficient Pruning by Leveraging Saturation of
Neurons [27.289945121113277]
死ニューロンの増殖を動的に制御するDemPを導入する。
CIFAR10とImageNetデータセットの実験では、精度とスパーシリティのトレードオフが優れている。
論文 参考訳(メタデータ) (2024-03-12T14:28:06Z) - EMN: Brain-inspired Elastic Memory Network for Quick Domain Adaptive Feature Mapping [57.197694698750404]
本稿では,特徴と予測のマッピングを高速に微調整するための,勾配のない新しいElastic Memory Networkを提案する。
EMNはランダムに結合したニューロンを用いて特徴とラベルの関連を記憶し、ネットワーク内のシグナルはインパルスとして伝播する。
EMNは、従来のドメイン適応手法の1%以下のタイミングコストしか必要とせず、最大10%の性能向上を達成することができる。
論文 参考訳(メタデータ) (2024-02-04T09:58:17Z) - Sharing Leaky-Integrate-and-Fire Neurons for Memory-Efficient Spiking
Neural Networks [9.585985556876537]
Leaky-Integrate-and-Fire(LIF)ニューロンの非線形活性化は、スパイクの時間的ダイナミクスを捉えるために膜電圧を保持するために追加のメモリを必要とする。
本稿では,LIFニューロンを異なる層とチャネルで共有する,シンプルで効果的なLIF-Netを提案する。
EfficientLIF-Netは、標準的なSNNと同等の精度を実現し、LIFニューロンの4.3倍の前方メモリ効率と21.9倍の後方メモリ効率を実現した。
論文 参考訳(メタデータ) (2023-05-26T22:55:26Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。