論文の概要: Towards Efficient Vision State Space Models via Token Merging
- arxiv url: http://arxiv.org/abs/2508.13599v1
- Date: Tue, 19 Aug 2025 08:08:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.837297
- Title: Towards Efficient Vision State Space Models via Token Merging
- Title(参考訳): トークンマージによる高能率ビジョン状態空間モデルの実現に向けて
- Authors: Jinyoung Park, Minseok Son, Changick Kim,
- Abstract要約: State Space Models (SSM) はコンピュータビジョンの強力なアーキテクチャとして登場した。
本研究では,SSMベースの視覚モデルに適したトークンマージ戦略であるMaMeを提案する。
- 参考スコア(独自算出の注目度): 19.451021005522108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs) have emerged as powerful architectures in computer vision, yet improving their computational efficiency remains crucial for practical and scalable deployment.While token reduction serves as an effective approach for model efficiency, applying it to SSMs requires careful consideration of their unique sequential modeling capabilities.In this work, we propose MaMe, a token-merging strategy tailored for SSM-based vision models.MaMe addresses two key challenges: quantifying token importance and preserving sequential properties. Our approach leverages the state transition parameter $\mathbf{\Delta}$ as an informativeness measure and introduces strategic token arrangements to preserve sequential information flow.Extensive experiments demonstrate that MaMe achieves superior efficiency-performance trade-offs for both fine-tuned and off-the-shelf models. Particularly, our approach maintains robustness even under aggressive token reduction where existing methods undergo significant performance degradation.Beyond image classification, MaMe shows strong generalization capabilities across video and audio domains, establishing an effective approach for enhancing efficiency in diverse SSM applications.
- Abstract(参考訳): 状態空間モデル(SSM)は、コンピュータビジョンにおいて強力なアーキテクチャとして登場したが、実用的でスケーラブルな展開において、その計算効率の向上は依然として不可欠である。トークンの削減は、モデル効率の効果的なアプローチであるが、SSMに適用するには、独自の逐次モデリング能力を慎重に考慮する必要がある。この記事では、SSMベースのビジョンモデルに適したトークンマージ戦略であるMaMeを提案する。MaMeは、トークンの重要性の定量化とシーケンシャルプロパティの保存という2つの重要な課題に対処する。
提案手法では, 情報伝達パラメータ $\mathbf{\Delta}$ を情報伝達指標として利用し, 逐次情報フローを維持するための戦略的トークン配置を導入する。
特に,既存の手法が顕著な性能劣化を受ける場合においても,ロバスト性は維持され,MaMeは映像領域や音声領域にまたがる強力な一般化能力を示し,多様なSSMアプリケーションにおける効率向上のための効果的なアプローチを確立している。
関連論文リスト
- LeMoRe: Learn More Details for Lightweight Semantic Segmentation [48.81126061219231]
計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。
提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
論文 参考訳(メタデータ) (2025-05-29T04:55:10Z) - MambaIC: State Space Models for High-Performance Learned Image Compression [53.991726013454695]
多数のフィールドをまたいだリアルタイム情報伝送には,高性能な画像圧縮アルゴリズムが不可欠である。
状態空間モデル(SSM)の長距離依存性の捕捉効果に着想を得て,SSMを利用して既存手法の計算不効率に対処する。
そこで本稿では,MambaICと呼ばれる洗練されたコンテキストモデリングによる画像圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-16T11:32:34Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文 参考訳(メタデータ) (2024-10-14T08:21:00Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。
我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。
刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文 参考訳(メタデータ) (2024-09-27T17:59:50Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。