論文の概要: Stochastic Layer-Wise Shuffle: A Good Practice to Improve Vision Mamba Training
- arxiv url: http://arxiv.org/abs/2408.17081v1
- Date: Fri, 30 Aug 2024 08:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:09:30.428047
- Title: Stochastic Layer-Wise Shuffle: A Good Practice to Improve Vision Mamba Training
- Title(参考訳): 確率的レイヤワイズシャッフル:視覚マンバトレーニングを改善するための良い実践
- Authors: Zizheng Huang, Haoxing Chen, Jiaqi Li, Jun Lan, Huijia Zhu, Weiqiang Wang, Limin Wang,
- Abstract要約: 階層的でない視覚マンバの大規模化(約300M)を成功させる階層的なシャッフル正規化を提案する。
具体的には、我々のベースモデルと大規模モデルであるShuffleMambaは、ImageNet1kにおける教師付きViTを0.8%、1.0%で上回ります。
- 参考スコア(独自算出の注目度): 34.75387791704113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Vision Mamba models not only have much lower complexity for processing higher resolution images and longer videos but also the competitive performance with Vision Transformers (ViTs). However, they are stuck into overfitting and thus only present up to base size (about 80M). It is still unclear how vanilla Vision Mamba (Vim) can be efficiently scaled up to larger sizes, which is essentially for further exploitation. In this paper, we propose a stochastic layer-wise shuffle regularization, which empowers successfully scaling non-hierarchical Vision Mamba to a large size (about 300M) in a supervised setting. Specifically, our base and large-scale ShuffleMamba models can outperform the supervised ViTs of similar size by 0.8\% and 1.0\% classification accuracy on ImageNet1k, respectively, without auxiliary data. When evaluated on the ADE20K semantic segmentation and COCO detection tasks, our ShuffleMamba models also show significant improvements. Without bells and whistles, the stochastic layer-wise shuffle has the following highlights: (1) \textit{Plug and play:} it does not change model architectures and will be omitted in inference. (2) \textit{Simple but effective:} it can improve the overfitting in Vim training and only introduce random token permutation operations. (3) \textit{Intuitive:} the token sequences in deeper layers are more likely to be shuffled as they are expected to be more semantic and less sensitive to patch positions. Code and models will be available at https://github.com/huangzizheng01/ShuffleMamba.
- Abstract(参考訳): 最近のVision Mambaモデルは、高解像度画像やより長いビデオを処理するのにはるかに少ない複雑さを持つだけでなく、ViT(Vision Transformers)との競合性能も持っている。
しかし、これらはオーバーフィッティングに悩まされており、ベースサイズ(約80M)までしか存在しない。
バニラ・ヴィジュアル・マンバ(Vim)が、どのようにしてより大きなサイズまで効率的にスケールできるのかは、いまだ不明である。
本稿では,非階層型視覚マンバの大規模化(約300M)を教師付き環境で実現する確率的階層型シャッフル正規化を提案する。
具体的には、我々のベースモデルと大規模モデルであるShuffleMambaは、補助データなしで、ImageNet1k上でそれぞれ0.8\%と1.0\%の分類精度で教師付きViTを上回ります。
ADE20KセマンティックセグメンテーションとCOCO検出タスクで評価すると、ShuffleMambaモデルも大幅に改善されている。
1) \textit{Plug and play:} モデルは変更されず、推論では省略される。
2) \textit{Simple but effective:} Vimトレーニングのオーバーフィッティングを改善し、ランダムトークン置換操作のみを導入することができる。
(3) \textit{Intuitive:} より深いレイヤのトークンシーケンスは、よりセマンティックでパッチ位置に対する感受性が低いと期待されるため、シャッフルされる可能性が高い。
コードとモデルはhttps://github.com/huangzizheng01/ShuffleMamba.comから入手できる。
関連論文リスト
- ZigMa: A DiT-style Zigzag Mamba Diffusion Model [22.68317748373856]
我々は、Mambaと呼ばれる状態空間モデルの長いシーケンスモデリング機能を活用し、その視覚データ生成への適用性を高めることを目指している。
我々は,Zigzag Mamba という,シンプルな,プラグアンドプレイのゼロパラメータ法を導入し,Mamba ベースのベースラインを上回ります。
Zigzag Mamba と Interpolant フレームワークを統合し,大規模なビジュアルデータセット上でのモデルのスケーラビリティについて検討する。
論文 参考訳(メタデータ) (2024-03-20T17:59:14Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文 参考訳(メタデータ) (2022-07-28T17:59:02Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision
Transformers with Locality [28.245387355693545]
Masked AutoEncoder (MAE)は、エレガントな非対称エンコーダデコーダ設計により、視覚的自己超越領域のトレンドを導いた。
本研究では,局所性のあるピラミッドベースのViTのMAE事前学習を実現するために,一様マスキング(UM)を提案する。
論文 参考訳(メタデータ) (2022-05-20T10:16:30Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。