Fugu-MT 論文翻訳(概要): Demystify Mamba in Vision: A Linear Attention Perspective

論文の概要: Demystify Mamba in Vision: A Linear Attention Perspective

arxiv url: http://arxiv.org/abs/2405.16605v2
Date: Mon, 02 Dec 2024 08:41:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:01:15.609502
Title: Demystify Mamba in Vision: A Linear Attention Perspective
Title（参考訳）: Demystify Mamba in Vision: 線形注意視点
Authors: Dongchen Han, Ziyi Wang, Zhuofan Xia, Yizeng Han, Yifan Pu, Chunjiang Ge, Jun Song, Shiji Song, Bo Zheng, Gao Huang,
Abstract要約: Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
参考スコア（独自算出の注目度）: 72.93213667713493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mamba is an effective state space model with linear computation complexity. It has recently shown impressive efficiency in dealing with high-resolution inputs across various vision tasks. In this paper, we reveal that the powerful Mamba model shares surprising similarities with linear attention Transformer, which typically underperform conventional Transformer in practice. By exploring the similarities and disparities between the effective Mamba and subpar linear attention Transformer, we provide comprehensive analyses to demystify the key factors behind Mamba's success. Specifically, we reformulate the selective state space model and linear attention within a unified formulation, rephrasing Mamba as a variant of linear attention Transformer with six major distinctions: input gate, forget gate, shortcut, no attention normalization, single-head, and modified block design. For each design, we meticulously analyze its pros and cons, and empirically evaluate its impact on model performance in vision tasks. Interestingly, the results highlight the forget gate and block design as the core contributors to Mamba's success, while the other four designs are less crucial. Based on these findings, we propose a Mamba-Inspired Linear Attention (MILA) model by incorporating the merits of these two key designs into linear attention. The resulting model outperforms various vision Mamba models in both image classification and high-resolution dense prediction tasks, while enjoying parallelizable computation and fast inference speed. Code is available at https://github.com/LeapLabTHU/MLLA.
Abstract（参考訳）: Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。最近、様々な視覚タスクにわたる高精細な入力を扱う際に、驚くほどの効率性を示した。本稿では,従来の変圧器を性能的に劣る線形アテンション変換器と,強力なマンバモデルが驚くほど類似していることを明らかにする。有効マンバとサブパーリニアアテンショントランスフォーマーの類似点と相違点を探索することにより,マンバの成功の鍵となる要因を解明するための総合的な分析を行う。具体的には、入力ゲート、忘れゲート、ショートカット、アテンション正規化なし、シングルヘッド、修正ブロック設計の6つの主要な特徴を持つ線形アテンショントランスフォーマーの変種としてマンバを表現し、統一された定式化内での選択状態空間モデルと線形アテンションを再構成する。それぞれの設計について,その長所と短所を慎重に分析し,視覚タスクにおけるモデル性能への影響を実証的に評価する。興味深いことに、結果はマンバの成功に寄与する中核的な要因として、忘れ門とブロックの設計を強調しているが、他の4つのデザインは重要ではない。これらの知見に基づいて,これらの2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。得られたモデルは、並列化可能な計算と高速推論速度を楽しみながら、画像分類と高解像度密度予測タスクの両方において様々な視覚的マンバモデルより優れている。コードはhttps://github.com/LeapLabTHU/MLLAで公開されている。

関連論文リスト

Differential Mamba [17.835292722130628]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Dynamic Vision Mamba [41.84910346271891]
マンバベースの視覚モデルは、注意に基づくモデルよりも計算的に効率的であることから、広く注目を集めている。トークンの冗長性については、初期トークンプルーニング手法がトレーニングと推論の不整合をもたらすことを解析的に見出した。ブロック冗長性については,マンバ型視覚モデルの推論速度がSSMブロック数に大きく影響しているという経験的観察に基づいて,各画像が動的にSSMブロックを選択することができる。
論文参考訳（メタデータ） (2025-04-07T07:31:28Z)
Visual Attention Exploration in Vision-Based Mamba Models [13.931745986906769]
状態空間モデル(SSM)は、トランスフォーマーモデルに代わる効率的な代替品として登場した。 SSMの最新の進歩の1つ、Mambaは、トレーニング可能なウェイトを入力トークンに割り当てる選択的スキャン機構を導入した。 Mambaはまた、2D画像を小さなパッチに分解し、1Dシーケンスとしてアレンジすることで、視覚領域にまで拡張された。
論文参考訳（メタデータ） (2025-02-28T06:33:18Z)
From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文参考訳（メタデータ） (2025-02-14T14:13:55Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
KMM: Key Frame Mask Mamba for Extended Motion Generation [21.144913854895243]
キーフレーム・マスキング・モデリング(Key frame Masking Modeling)は、キーフレーム・マスキング・モデリング(Key frame Masking Modeling)を特徴とする新しいアーキテクチャである。我々は,従来の最先端手法と比較して,FIDが57%以上,パラメータが70%以上減少し,最先端性能を達成するため,go-toデータセットであるBABELの広範な実験を行った。
論文参考訳（メタデータ） (2024-11-10T14:41:38Z)
MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。 MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-01T17:05:08Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文参考訳（メタデータ） (2024-07-15T00:48:06Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文参考訳（メタデータ） (2024-06-27T08:45:31Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。