論文の概要: Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training
- arxiv url: http://arxiv.org/abs/2408.17081v2
- Date: Mon, 02 Jun 2025 08:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.914536
- Title: Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training
- Title(参考訳): 視覚マンバ訓練のための確率的レイヤワイズシャッフル
- Authors: Zizheng Huang, Haoxing Chen, Jiaqi Li, Jun Lan, Huijia Zhu, Weiqiang Wang, Limin Wang,
- Abstract要約: 最近のVision Mamba(Vim)モデルは、配列長のほとんど線形な複雑さを示している。
SLWS(Layer-Wise Shuffle)は、Vimトレーニングを効果的に改善できる新しい正規化手法である。
- 参考スコア(独自算出の注目度): 34.75387791704113
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent Vision Mamba (Vim) models exhibit nearly linear complexity in sequence length, making them highly attractive for processing visual data. However, the training methodologies and their potential are still not sufficiently explored. In this paper, we investigate strategies for Vim and propose Stochastic Layer-Wise Shuffle (SLWS), a novel regularization method that can effectively improve the Vim training. Without architectural modifications, this approach enables the non-hierarchical Vim to get leading performance on ImageNet-1K compared with the similar type counterparts. Our method operates through four simple steps per layer: probability allocation to assign layer-dependent shuffle rates, operation sampling via Bernoulli trials, sequence shuffling of input tokens, and order restoration of outputs. SLWS distinguishes itself through three principles: \textit{(1) Plug-and-play:} No architectural modifications are needed, and it is deactivated during inference. \textit{(2) Simple but effective:} The four-step process introduces only random permutations and negligible overhead. \textit{(3) Intuitive design:} Shuffling probabilities grow linearly with layer depth, aligning with the hierarchical semantic abstraction in vision models. Our work underscores the importance of tailored training strategies for Vim models and provides a helpful way to explore their scalability.
- Abstract(参考訳): 最近のVision Mamba(Vim)モデルは、シーケンス長のほぼ線形な複雑さを示しており、視覚データを処理するのに非常に魅力的である。
しかし、訓練方法とその可能性はまだ十分に調査されていない。
本稿では,Vimトレーニングを効果的に改善する新しい正規化手法であるStochastic Layer-Wise Shuffle (SLWS)を提案する。
アーキテクチャ上の変更がなければ、非階層的なVimが ImageNet-1K において、類似の型と比較してリードパフォーマンスを得ることが可能になる。
提案手法は, 層別シャッフル率を割り当てる確率割当, ベルヌーイ試験による動作サンプリング, 入力トークンのシーケンスシャッフル, 出力の順序復元の4段階からなる。
SLWSは、次の3つの原則を区別している。 \textit{(1) Plug-and-play:} アーキテクチャの変更は不要で、推論中に無効になる。
\textit{(2) Simple but effective:} 4段階のプロセスは、ランダムな置換と無視可能なオーバーヘッドのみを導入します。
直観的設計:} シャッフル確率は層深度と線形に成長し、視覚モデルにおける階層的セマンティック抽象化と整合する。
私たちの研究は、Vimモデルの調整されたトレーニング戦略の重要性を強調し、そのスケーラビリティを探求するための有用な方法を提供します。
関連論文リスト
- Dynamic Vision Mamba [41.84910346271891]
マンバベースの視覚モデルは、注意に基づくモデルよりも計算的に効率的であることから、広く注目を集めている。
トークンの冗長性については、初期トークンプルーニング手法がトレーニングと推論の不整合をもたらすことを解析的に見出した。
ブロック冗長性については,マンバ型視覚モデルの推論速度がSSMブロック数に大きく影響しているという経験的観察に基づいて,各画像が動的にSSMブロックを選択することができる。
論文 参考訳(メタデータ) (2025-04-07T07:31:28Z) - PTQ4VM: Post-Training Quantization for Visual Mamba [9.446971590056945]
本稿では,PTS(Per-Token Static Quantization)とJLSS(Joint Learning of Smoothing Scale and Step Size)の2つの主要な戦略を紹介する。
PTQ4VM は様々な Visual Mamba のバックボーンに適用でき、事前訓練されたモデルを15分以内で量子化されたフォーマットに変換する。
論文 参考訳(メタデータ) (2024-12-29T07:21:33Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Mamba YOLO: A Simple Baseline for Object Detection with State Space Model [10.44725284994877]
YOLOシリーズは、リアルタイムオブジェクト検出のための新しいベンチマークを設定した。
トランスフォーマーベースの構造が、最も強力なソリューションとして登場した。
しかし、自己注意機構の二次的な複雑さは計算負担を増加させる。
簡単なが効果的なベースラインアプローチであるYolo Mambaを紹介する。
論文 参考訳(メタデータ) (2024-06-09T15:56:19Z) - ZigMa: A DiT-style Zigzag Mamba Diffusion Model [22.68317748373856]
我々は、Mambaと呼ばれる状態空間モデルの長いシーケンスモデリング機能を活用し、その視覚データ生成への適用性を高めることを目指している。
我々は,Zigzag Mamba という,シンプルな,プラグアンドプレイのゼロパラメータ法を導入し,Mamba ベースのベースラインを上回ります。
Zigzag Mamba と Interpolant フレームワークを統合し,大規模なビジュアルデータセット上でのモデルのスケーラビリティについて検討する。
論文 参考訳(メタデータ) (2024-03-20T17:59:14Z) - LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - HorNet: Efficient High-Order Spatial Interactions with Recursive Gated
Convolutions [109.33112814212129]
本稿では,畳み込みに基づくフレームワークを用いて,入力適応型,長距離,高次空間相互作用を効率的に実装可能であることを示す。
本稿では、ゲート畳み込みと高次空間相互作用を行うRecursive Gated Convolution(textitgtextitn$Conv)を提案する。
この操作に基づいて,HorNetという汎用視覚バックボーンを新たに構築する。
論文 参考訳(メタデータ) (2022-07-28T17:59:02Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision
Transformers with Locality [28.245387355693545]
Masked AutoEncoder (MAE)は、エレガントな非対称エンコーダデコーダ設計により、視覚的自己超越領域のトレンドを導いた。
本研究では,局所性のあるピラミッドベースのViTのMAE事前学習を実現するために,一様マスキング(UM)を提案する。
論文 参考訳(メタデータ) (2022-05-20T10:16:30Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。