論文の概要: CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19235v1
- Date: Sun, 25 May 2025 17:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.993945
- Title: CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models
- Title(参考訳): CoreMatching: 視覚・言語モデルの包括的高速化のためのトークンとニューロンプルーニングを用いた共適応スパース推論フレームワーク
- Authors: Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, Yiran Chen,
- Abstract要約: Token sparsityはトークン使用時の非効率を軽減し、Neuron sparsityは高次元計算を減少させる。
最近、これらの2つの疎性パラダイムは、主に並列に進化し、それらが独立して機能するという一般的な仮定を育んでいる。
トークンとニューロンの間隔の相乗効果を利用して推論効率を向上させる,共適応スパース推論フレームワークCoreMatchingを提案する。
- 参考スコア(独自算出の注目度): 12.277869260176068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) excel across diverse tasks but suffer from high inference costs in time and memory. Token sparsity mitigates inefficiencies in token usage, while neuron sparsity reduces high-dimensional computations, both offering promising solutions to enhance efficiency. Recently, these two sparsity paradigms have evolved largely in parallel, fostering the prevailing assumption that they function independently. However, a fundamental yet underexplored question remains: Do they truly operate in isolation, or is there a deeper underlying interplay that has yet to be uncovered? In this paper, we conduct the first comprehensive investigation into this question. By introducing and analyzing the matching mechanism between Core Neurons and Core Tokens, we found that key neurons and tokens for inference mutually influence and reinforce each other. Building on this insight, we propose CoreMatching, a co-adaptive sparse inference framework, which leverages the synergy between token and neuron sparsity to enhance inference efficiency. Through theoretical analysis and efficiency evaluations, we demonstrate that the proposed method surpasses state-of-the-art baselines on ten image understanding tasks and three hardware devices. Notably, on the NVIDIA Titan Xp, it achieved 5x FLOPs reduction and a 10x overall speedup. Code is released at https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なタスクにまたがるが、時間とメモリにおける高い推論コストに悩まされる。
Token sparsityはトークン使用の非効率を軽減し、Neuron sparsityは高次元計算を減らし、どちらも効率を高めるための有望なソリューションを提供する。
最近、これらの2つの疎性パラダイムは、主に並列に進化し、それらが独立して機能するという一般的な仮定を育んでいる。
しかし、根本的な未発見の疑問が残る: それらは本当に単独で動作するのか、それともまだ発見されていない深い根底にある相互作用があるのか?
本稿では,本問題に対する初の包括的調査を行う。
コアニューロンとコアトークンのマッチング機構を導入,解析することにより,互いに相互に影響し,強化する重要なニューロンとトークンが発見された。
この知見に基づいて,トークンとニューロンの間隔の相乗効果を利用して推論効率を向上させる,共適応スパース推論フレームワークCoreMatchingを提案する。
理論的解析と効率評価により,提案手法は10つの画像理解タスクと3つのハードウェアデバイスにおける最先端のベースラインを超えることを示した。
NVIDIA Titan Xpでは5倍のFLOPと10倍のスピードアップを達成した。
コードはhttps://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/mainでリリースされる。
関連論文リスト
- CoreInfer: Accelerating Large Language Model Inference with Semantics-Inspired Adaptive Sparse Activation [14.823949309351129]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
アダプティブスパースアクティベーション推論(Adaptive sparse activation inference)は、トークンごとに少数のニューロンのみを活性化し、モデル推論を加速する新しい方法を提供する。
本稿では,文レベルの予測に基づく適応的なスパースアクティベーション推論手法であるCoreInferを紹介する。
論文 参考訳(メタデータ) (2024-10-23T22:45:23Z) - NeuroPrune: A Neuro-inspired Topological Sparse Training Algorithm for Large Language Models [35.10729451729596]
自然言語処理(NLP)におけるトランスフォーマーベース言語モデルの普及
しかし、高価なトレーニングや推論は、その適用性に重大な障害となる。
脳神経ネットワークにインスパイアされた我々は、ネットワークトポロジーのレンズを通してスパーシティアプローチを探索する。
論文 参考訳(メタデータ) (2024-02-28T22:21:47Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Semantic Strengthening of Neuro-Symbolic Learning [85.6195120593625]
ニューロシンボリックアプローチは一般に確率論的目的のファジィ近似を利用する。
トラクタブル回路において,これを効率的に計算する方法を示す。
我々は,Warcraftにおける最小コストパスの予測,最小コスト完全マッチングの予測,スドクパズルの解法という3つの課題に対して,アプローチを検証した。
論文 参考訳(メタデータ) (2023-02-28T00:04:22Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - From Node Interaction to Hop Interaction: New Effective and Scalable
Graph Learning Paradigm [25.959580336262004]
本稿では,制約に同時に対処する新しいホップ相互作用パラダイムを提案する。
中心となる考え方は、ノード間のインタラクションターゲットを、各ノード内で事前処理されたマルチホップ機能に変換することである。
グラフの幅広い領域、スケール、滑らかさにおいて、12のベンチマークデータセットに対して広範な実験を行う。
論文 参考訳(メタデータ) (2022-11-21T11:29:48Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。
MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。
このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文 参考訳(メタデータ) (2021-09-22T15:33:49Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。