論文の概要: Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training
- arxiv url: http://arxiv.org/abs/2412.12496v3
- Date: Tue, 11 Mar 2025 02:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:12.079557
- Title: Faster Vision Mamba is Rebuilt in Minutes via Merged Token Re-training
- Title(参考訳): より高速なビジョン・マンバは、マージド・トークン・リトレーニングで数分で作り直される
- Authors: Mingjia Shi, Yuhao Zhou, Ruiji Yu, Zekai Li, Zhiyuan Liang, Xuanlei Zhao, Xiaojiang Peng, Shanmukha Ramakrishna Vedantam, Wangbo Zhao, Kai Wang, Yang You,
- Abstract要約: 実証的に言えば、プルーニングされたVimsはImageNet-1Kで最大0.9%の精度しか得られず、提案したフレームワークR-MeeToによって復元された。
Vim-Ti/S/Bは5/7/17分以内に再訓練され、Vim-Sは1.2倍(最大1.5倍)の速度で1.3%しか低下しない。
- 参考スコア(独自算出の注目度): 25.165300765309798
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Mamba has shown close to state of the art performance on computer vision tasks, drawing much interest in increasing it's efficiency. A promising approach is token reduction (that has been successfully implemented in ViTs). Pruning informative tokens in Mamba leads to a high loss of key knowledge and degraded performance. An alternative, of merging tokens preserves more information than pruning, also suffers for large compression ratios. Our key insight is that a quick round of retraining after token merging yeilds robust results across various compression ratios. Empirically, pruned Vims only drop up to 0.9% accuracy on ImageNet-1K, recovered by our proposed framework R-MeeTo in our main evaluation. We show how simple and effective the fast recovery can be achieved at minute-level, in particular, a 35.9% accuracy spike over 3 epochs of training on Vim-Ti. Moreover, Vim-Ti/S/B are re-trained within 5/7/17 minutes, and Vim-S only drops 1.3% with 1.2x (up to 1.5x) speed up in inference.
- Abstract(参考訳): Vision Mambaはコンピュータビジョンタスクの最先端のパフォーマンスに近づき、その効率向上に大きな関心を寄せている。
有望なアプローチはトークンの削減(ViTでうまく実装されている)である。
Mambaで情報トークンを発行すると、重要な知識が失われ、パフォーマンスが低下する。
トークンをマージする別の方法は、プルーニングよりも多くの情報を保存し、大きな圧縮比を被る。
鍵となる洞察は、トークンをマージした後の迅速な再訓練は、様々な圧縮比で頑健な結果をもたらすということである。
実験的に、プルーニングされたVimsはImageNet-1Kで最大0.9%の精度しか得られず、提案したフレームワークであるR-MeeToが主要な評価で回収した。
特にVim-Tiでの3回のトレーニングで35.9%の精度が急上昇した。
さらに、Vim-Ti/S/Bは5/7/17分以内に再訓練され、Vim-Sは1.2倍(最大1.5倍)の速度で1.3%しか低下しない。
関連論文リスト
- Similarity-Aware Token Pruning: Your VLM but Faster [1.9183218182020931]
本稿では、視覚変換器(ViT)と視覚言語モデル(VLM)のためのトレーニングフリートークン解析フレームワークであるSAINTを紹介する。
系統的な解析により,変圧器における3段階の普遍的なトークン進化過程を同定し,臨界情報を犠牲にすることなく早期にアグレッシブプルーニングを可能にする。
ViTでは、SAINTは224pxでViT-H/14のスループットを2倍にし、ImageNet-1Kの精度はわずか0.6%で、最も近い競合相手を0.8%上回っている。
論文 参考訳(メタデータ) (2025-03-14T16:12:23Z) - ImagePiece: Content-aware Re-tokenization for Efficient Image Recognition [8.07235516190038]
ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンタスクにおいて顕著な成功を収めた。
最近の研究は、トークンの数を減らし、効果的にプーンしたりマージする方法に重点を置いている。
本稿では,視覚変換器の新たな再トークン化戦略であるImagePieceを提案する。
論文 参考訳(メタデータ) (2024-12-21T05:38:20Z) - Token Cropr: Faster ViTs for Quite a Few Tasks [12.97062850155708]
本稿では,タスク関連性に基づいてトークンをエンドツーエンドに選択する方法を学習する補助予測ヘッドを用いたトークンプルーナを提案する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションについて評価し,1.5~4倍の性能低下を示す。
論文 参考訳(メタデータ) (2024-12-01T20:58:29Z) - Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion [10.854742185190482]
MambaとVision Mamba(Vim)モデルは、Transformerアーキテクチャに基づくメソッドの代替としての可能性を示している。
この研究は、Vimモデルのトレーニング効率を高めるための層間トークン融合技術であるFast Mamba for Vision (Famba-V)を導入している。
論文 参考訳(メタデータ) (2024-09-15T18:02:26Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。