論文の概要: Separators in Enhancing Autoregressive Pretraining for Vision Mamba
- arxiv url: http://arxiv.org/abs/2603.03806v1
- Date: Wed, 04 Mar 2026 07:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.22246
- Title: Separators in Enhancing Autoregressive Pretraining for Vision Mamba
- Title(参考訳): ビジョンマンバの自己回帰事前訓練強化のためのセパレータ
- Authors: Hanpeng Liu, Zidan Wang, Shuoxi Zhang, Kaiyuan Gao, Kun He,
- Abstract要約: 視覚マンバのための革新的自己回帰事前学習手法を提案する。
textbfSeparatextbfTors for textbfAutotextbfRegressive Pretraining to demarcate and differentiate between different image。
- 参考スコア(独自算出の注目度): 14.94233154248831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The state space model Mamba has recently emerged as a promising paradigm in computer vision, attracting significant attention due to its efficient processing of long sequence tasks. Mamba's inherent causal mechanism renders it particularly suitable for autoregressive pretraining. However, current autoregressive pretraining methods are constrained to short sequence tasks, failing to fully exploit Mamba's prowess in handling extended sequences. To address this limitation, we introduce an innovative autoregressive pretraining method for Vision Mamba that substantially extends the input sequence length. We introduce new \textbf{S}epara\textbf{T}ors for \textbf{A}uto\textbf{R}egressive pretraining to demarcate and differentiate between different images, known as \textbf{STAR}. Specifically, we insert identical separators before each image to demarcate its inception. This strategy enables us to quadruple the input sequence length of Vision Mamba while preserving the original dimensions of the dataset images. Employing this long sequence pretraining technique, our STAR-B model achieved an impressive accuracy of 83.5\% on ImageNet-1k, which is highly competitive in Vision Mamba. These results underscore the potential of our method in enhancing the performance of vision models through improved leveraging of long-range dependencies.
- Abstract(参考訳): 状態空間モデルであるMambaは最近、コンピュータビジョンにおいて有望なパラダイムとして登場し、長いシーケンスタスクの効率的な処理のために大きな注目を集めている。
マンバの固有の因果機構は、特に自己回帰前訓練に適している。
しかしながら、現在の自己回帰事前学習法は、短いシーケンスタスクに制約され、拡張シーケンスを扱う上でのMambaの長所を完全に活用することができない。
この制限に対処するために、入力シーケンス長を大幅に拡張したビジョンマンバの革新的自己回帰事前学習手法を導入する。
本稿では,新しい \textbf{S}epara\textbf{T}ors を導入する。
具体的には、各画像の前に同一のセパレータを挿入して、その開始を分離する。
この戦略により、データセット画像の原次元を保存しながら、Vision Mambaの入力シーケンス長を4倍にすることができる。
この長周期事前学習技術を用いて,ビジョン・マンバにおいて高い競争力を持つ ImageNet-1k において,STAR-B モデルにおいて 83.5\% の精度を達成した。
これらの結果から,長距離依存の活用による視覚モデルの性能向上の可能性が示唆された。
関連論文リスト
- MambaEye: A Size-Agnostic Visual Encoder with Causal Sequential Processing [14.888533532729864]
MambaEyeは、低複雑さと因果プロセスベースの純粋なMamba2バックボーンを活用する、新しい因果シーケンシャルエンコーダである。
従来のMambaベースの視覚エンコーダとは異なり、我々の厳密な一方向アプローチは、状態空間モデルの本質的な因果性を保存する。
MambaEyeは、幅広い画像解像度、特にImageNet-1K分類タスクの15362$のような高解像度で、堅牢なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-11-25T06:18:18Z) - Training-free Token Reduction for Vision Mamba [21.451182941570394]
Vision MambaはVitual Transformers(ViTs)の強力なライバルとして登場した
ViTのトークン削減技術をVision Mambaに適用すると、パフォーマンスが大幅に低下する。
トレーニング不要なtextbfMamba textbfToken textbfReduction フレームワーク MTR を提案する。
論文 参考訳(メタデータ) (2025-07-18T16:11:28Z) - DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。
変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。
多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-04-08T08:22:54Z) - Dynamic Vision Mamba [41.84910346271891]
マンバベースの視覚モデルは、注意に基づくモデルよりも計算的に効率的であることから、広く注目を集めている。
トークンの冗長性については、初期トークンプルーニング手法がトレーニングと推論の不整合をもたらすことを解析的に見出した。
ブロック冗長性については,マンバ型視覚モデルの推論速度がSSMブロック数に大きく影響しているという経験的観察に基づいて,各画像が動的にSSMブロックを選択することができる。
論文 参考訳(メタデータ) (2025-04-07T07:31:28Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
実験の結果,MAPで事前トレーニングしたMamba-Transformer視覚バックボーンネットワークは,他の事前トレーニング戦略よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-10-01T17:05:08Z) - MambaMIM: Pre-training Mamba with State Space Token Interpolation and its Application to Medical Image Segmentation [23.67774523461722]
我々はMambaMIMと呼ばれる汎用的な事前学習フレームワークを提案する。
MambaMIMはマスキングシーケンス内の状態空間の因果関係を学習する。
我々は6.8KCTの大規模データセットでMambaMIMを事前訓練する。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
実世界の長距離NLPタスクに対する実験では、DeciMambaはトレーニング中に見られるものよりも、コンテキスト長に格段に長く当てはまることが示されている。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。