論文の概要: Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training
- arxiv url: http://arxiv.org/abs/2412.12496v3
- Date: Tue, 11 Mar 2025 02:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:40:29.326878
- Title: Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training
- Title(参考訳): より高速なビジョン・マンバは、マージド・トークン・リトレーニングで数分で作り直される
- Authors: Mingjia Shi, Yuhao Zhou, Ruiji Yu, Zekai Li, Zhiyuan Liang, Xuanlei Zhao, Xiaojiang Peng, Shanmukha Ramakrishna Vedantam, Wangbo Zhao, Kai Wang, Yang You,
- Abstract要約: 実証的に言えば、プルーニングされたVimsはImageNet-1Kで最大0.9%の精度しか得られず、提案したフレームワークR-MeeToによって復元された。
Vim-Ti/S/Bは5/7/17分以内に再訓練され、Vim-Sは1.2倍(最大1.5倍)の速度で1.3%しか低下しない。
- 参考スコア(独自算出の注目度): 25.165300765309798
- License:
- Abstract: Vision Mamba has shown close to state of the art performance on computer vision tasks, drawing much interest in increasing it's efficiency. A promising approach is token reduction (that has been successfully implemented in ViTs). Pruning informative tokens in Mamba leads to a high loss of key knowledge and degraded performance. An alternative, of merging tokens preserves more information than pruning, also suffers for large compression ratios. Our key insight is that a quick round of retraining after token merging yeilds robust results across various compression ratios. Empirically, pruned Vims only drop up to 0.9% accuracy on ImageNet-1K, recovered by our proposed framework R-MeeTo in our main evaluation. We show how simple and effective the fast recovery can be achieved at minute-level, in particular, a 35.9% accuracy spike over 3 epochs of training on Vim-Ti. Moreover, Vim-Ti/S/B are re-trained within 5/7/17 minutes, and Vim-S only drops 1.3% with 1.2x (up to 1.5x) speed up in inference.
- Abstract(参考訳): Vision Mambaはコンピュータビジョンタスクの最先端のパフォーマンスに近づき、その効率向上に大きな関心を寄せている。
有望なアプローチはトークンの削減(ViTでうまく実装されている)である。
Mambaで情報トークンを発行すると、重要な知識が失われ、パフォーマンスが低下する。
トークンをマージする別の方法は、プルーニングよりも多くの情報を保存し、大きな圧縮比を被る。
鍵となる洞察は、トークンをマージした後の迅速な再訓練は、様々な圧縮比で頑健な結果をもたらすということである。
実験的に、プルーニングされたVimsはImageNet-1Kで最大0.9%の精度しか得られず、提案したフレームワークであるR-MeeToが主要な評価で回収した。
特にVim-Tiでの3回のトレーニングで35.9%の精度が急上昇した。
さらに、Vim-Ti/S/Bは5/7/17分以内に再訓練され、Vim-Sは1.2倍(最大1.5倍)の速度で1.3%しか低下しない。
関連論文リスト
- ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition [8.07235516190038]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。
最近の研究は、トークンの数を減らし、効果的にプーンしたりマージする方法に重点を置いている。
本稿では,視覚変換器の新たな再トークン化戦略であるImagePieceを提案する。
論文 参考訳(メタデータ) (2024-12-21T05:38:20Z) - Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion [10.854742185190482]
MambaとVision Mamba(Vim)モデルは、Transformerアーキテクチャに基づくメソッドの代替としての可能性を示している。
この研究は、Vimモデルのトレーニング効率を高めるための層間トークン融合技術であるFast Mamba for Vision (Famba-V)を導入している。
論文 参考訳(メタデータ) (2024-09-15T18:02:26Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Mamba-R: Vision Mamba ALSO Needs Registers [45.41648622999754]
ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応しており、Vision Mambaではより深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
論文 参考訳(メタデータ) (2024-05-23T17:58:43Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。