Fugu-MT 論文翻訳(概要): Exploring Token Pruning in Vision State Space Models

論文の概要: Exploring Token Pruning in Vision State Space Models

arxiv url: http://arxiv.org/abs/2409.18962v1
Date: Fri, 27 Sep 2024 17:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 07:41:44.838898
Title: Exploring Token Pruning in Vision State Space Models
Title（参考訳）: 視覚状態空間モデルにおけるトーケンプルーニングの探索
Authors: Zheng Zhan, Zhenglun Kong, Yifan Gong, Yushu Wu, Zichong Meng, Hangyu Zheng, Xuan Shen, Stratis Ioannidis, Wei Niu, Pu Zhao, Yanzhi Wang,
Abstract要約: 状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
参考スコア（独自算出の注目度）: 38.122017567843905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State Space Models (SSMs) have the advantage of keeping linear computational complexity compared to attention modules in transformers, and have been applied to vision tasks as a new type of powerful vision foundation model. Inspired by the observations that the final prediction in vision transformers (ViTs) is only based on a subset of most informative tokens, we take the novel step of enhancing the efficiency of SSM-based vision models through token-based pruning. However, direct applications of existing token pruning techniques designed for ViTs fail to deliver good performance, even with extensive fine-tuning. To address this issue, we revisit the unique computational characteristics of SSMs and discover that naive application disrupts the sequential token positions. This insight motivates us to design a novel and general token pruning method specifically for SSM-based vision models. We first introduce a pruning-aware hidden state alignment method to stabilize the neighborhood of remaining tokens for performance enhancement. Besides, based on our detailed analysis, we propose a token importance evaluation method adapted for SSM models, to guide the token pruning. With efficient implementation and practical acceleration methods, our method brings actual speedup. Extensive experiments demonstrate that our approach can achieve significant computation reduction with minimal impact on performance across different tasks. Notably, we achieve 81.7\% accuracy on ImageNet with a 41.6\% reduction in the FLOPs for pruned PlainMamba-L3. Furthermore, our work provides deeper insights into understanding the behavior of SSM-based vision models for future research.
Abstract（参考訳）: 状態空間モデル(SSM)は、トランスフォーマーの注目モジュールと比較して線形計算複雑性を維持する利点があり、新しいタイプの強力な視覚基盤モデルとして視覚タスクに適用されている。視覚変換器(ViT)の最終的な予測は,最も情報に富むトークンのサブセットにのみ基づくものであるという観測から着想を得て,トークンベースのプルーニングによるSSMベースの視覚モデルの効率向上に向けた新たな一歩を踏み出した。しかし、ViT向けに設計された既存のトークンプルーニング技術の直接的な応用は、広範囲の微調整を施しても、優れた性能を発揮できない。この問題に対処するために、SSMのユニークな計算特性を再検討し、単純アプリケーションによってシーケンシャルトークンの位置が破壊されることを発見する。この知見は、SSMベースの視覚モデルに特化して、新規で一般的なトークンプルーニング手法を設計する動機となっている。まず, 隠れ状態アライメント方式を導入し, 残ったトークンの近傍を安定化させ, 性能向上を図る。また,SSMモデルに適応したトークン重要度評価手法を提案する。効率的な実装と実用的なアクセラレーション手法により,本手法は実際の高速化をもたらす。大規模な実験により,本手法は様々なタスクにおける性能への影響を最小限に抑えながら,計算量を大幅に削減できることが実証された。特に,PlainMamba-L3 の FLOP を 41.6 % 削減した ImageNet では81.7 % の精度を実現している。さらに,本研究は,将来の研究のために,SSMに基づく視覚モデルの振る舞いを理解するための深い洞察を提供する。

関連論文リスト

Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Vision-Centric Representation-Efficient Fine-Tuning for Robust Universal Foreground Segmentation [5.326302374594885]
前景のセグメンテーションはシーン理解に不可欠であるが、視覚基盤モデル(VFM)のパラメータ効率の良い微調整(PEFT)は複雑なシナリオでしばしば失敗する。 LSR-ST(Ladder Shape-bias Representation Side-tuning)を提案する。
論文参考訳（メタデータ） (2025-04-20T04:12:38Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency [30.354755381533433]
視覚言語モデル(VLM)は視覚的推論に優れているが、しばしば計算コストが高い。最近のトークン還元法は、最小性能損失を達成している。トレーニング不要なビジュアルトークン削減手法であるLoFiを提案する。
論文参考訳（メタデータ） (2025-03-09T22:16:48Z)
Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。 SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。 COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2024-12-13T05:40:50Z)
Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。 SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文参考訳（メタデータ） (2024-11-26T08:33:25Z)
Rethinking Token Reduction for State Space Models [47.00760373683448]
状態空間モデル(SSM)のための調整・統一されたポストトレーニングトークン削減手法を提案する。我々のアプローチはトークンの重要性と類似性を統合し、プルーニングとマージの両方を活用する。本手法は,Mamba-2を用いた6つのベンチマークにおいて,従来の手法と比較して平均精度を5.7%から13.1%向上させる。
論文参考訳（メタデータ） (2024-10-16T00:06:13Z)
big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文参考訳（メタデータ） (2024-10-14T08:21:00Z)
Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文参考訳（メタデータ） (2024-08-24T18:28:19Z)
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。 SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文参考訳（メタデータ） (2023-08-19T08:17:41Z)
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models [35.5601603013045]
視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
論文参考訳（メタデータ） (2023-05-24T11:18:00Z)
Depth Estimation with Simplified Transformer [4.565830918989131]
トランスフォーマーとその変種は、最近多くの視覚タスクにおいて最先端の結果を示している。簡易変換器(DEST)を用いた自己教師型単眼深度推定法を提案する。我々のモデルでは、モデルのサイズ、複雑さ、および推論遅延を大幅に削減すると同時に、最先端技術と比較して精度が向上する。
論文参考訳（メタデータ） (2022-04-28T21:39:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。