論文の概要: RNN as Linear Transformer: A Closer Investigation into Representational Potentials of Visual Mamba Models
- arxiv url: http://arxiv.org/abs/2511.18380v1
- Date: Sun, 23 Nov 2025 09:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.811134
- Title: RNN as Linear Transformer: A Closer Investigation into Representational Potentials of Visual Mamba Models
- Title(参考訳): 線形変換器としてのRNN:視覚マンバモデルの表現可能性に関するより密な研究
- Authors: Timing Yang, Guoyizhe Wei, Alan Yuille, Feng Wang,
- Abstract要約: Mambaは最近、視覚タスクの効果的なバックボーンとして注目を集めている。
マンバの表現性を調べるために3つの主要な貢献をする。
我々のモデルは、ImageNet上で78.5%の線形探索精度を達成し、その強い性能を裏付ける。
- 参考スコア(独自算出の注目度): 8.049668552887505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba has recently garnered attention as an effective backbone for vision tasks. However, its underlying mechanism in visual domains remains poorly understood. In this work, we systematically investigate Mamba's representational properties and make three primary contributions. First, we theoretically analyze Mamba's relationship to Softmax and Linear Attention, confirming that it can be viewed as a low-rank approximation of Softmax Attention and thereby bridging the representational gap between Softmax and Linear forms. Second, we introduce a novel binary segmentation metric for activation map evaluation, extending qualitative assessments to a quantitative measure that demonstrates Mamba's capacity to model long-range dependencies. Third, by leveraging DINO for self-supervised pretraining, we obtain clearer activation maps than those produced by standard supervised approaches, highlighting Mamba's potential for interpretability. Notably, our model also achieves a 78.5 percent linear probing accuracy on ImageNet, underscoring its strong performance. We hope this work can provide valuable insights for future investigations of Mamba-based vision architectures.
- Abstract(参考訳): Mambaは最近、視覚タスクの効果的なバックボーンとして注目を集めている。
しかし、その基盤となる視覚領域のメカニズムはいまだに理解されていない。
本研究では,マンバの表現特性を体系的に調査し,三つの主要な貢献を行う。
まず,マンバとソフトマックス・リニア・アテンションの関係を理論的に解析し,ソフトマックス・アテンションの低ランク近似と見なすことができ,ソフトマックス・リニア・フォーム間の表現的ギャップを埋めることができることを確認した。
第2に、活性化マップ評価のための新しいバイナリセグメンテーションメトリクスを導入し、定性的評価を長距離依存をモデル化するマンバの能力を示す定量的尺度に拡張する。
第3に、DINOを自己教師付き事前学習に活用することにより、標準的な教師付きアプローチよりも明確なアクティベーションマップが得られ、マンバの解釈可能性の可能性を強調した。
特に、当社のモデルは、ImageNet上で78.5%の線形探索精度を実現しており、その強い性能を示している。
この研究が今後のマンバをベースとした視覚アーキテクチャの研究に有用な洞察を得られることを願っている。
関連論文リスト
- Can Mamba Learn In Context with Outliers? A Theoretical Generalization Analysis [88.05636819649804]
MambaモデルはTransformerベースのモデルよりも計算上の優位性に大きく注目されている。
本稿では,一層マンバモデルのトレーニング力学に関する最初の理論的解析を行った。
マムバは、より多くのトレーニングを必要とするかもしれないが、線形変換器が許容できるしきい値を超える場合であっても、正確な予測を保っている。
論文 参考訳(メタデータ) (2025-10-01T01:25:01Z) - A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。
本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (2024-08-02T09:18:41Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。
最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。
ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。