論文の概要: The Hidden Attention of Mamba Models
- arxiv url: http://arxiv.org/abs/2403.01590v1
- Date: Sun, 3 Mar 2024 18:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:48:46.131888
- Title: The Hidden Attention of Mamba Models
- Title(参考訳): mambaモデルの隠れた注意
- Authors: Ameen Ali, Itamar Zimerman, Lior Wolf
- Abstract要約: Mamba層は効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
- 参考スコア(独自算出の注目度): 61.25846109294293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mamba layer offers an efficient selective state space model (SSM) that is
highly effective in modeling multiple domains including NLP, long-range
sequences processing, and computer vision. Selective SSMs are viewed as dual
models, in which one trains in parallel on the entire sequence via IO-aware
parallel scan, and deploys in an autoregressive manner. We add a third view and
show that such models can be viewed as attention-driven models. This new
perspective enables us to compare the underlying mechanisms to that of the
self-attention layers in transformers and allows us to peer inside the inner
workings of the Mamba model with explainability methods. Our code is publicly
available.
- Abstract(参考訳): mamba層は、nlp、長距離シーケンス処理、コンピュータビジョンを含む複数のドメインのモデリングに非常に効果的である効率的な選択的状態空間モデル(ssm)を提供する。
選択的なSSMはデュアルモデルと見なされ、IO対応の並列スキャンによってシーケンス全体を並列にトレーニングし、自動回帰的にデプロイする。
3つ目のビューを加えて、そのようなモデルを注目駆動モデルとみなすことができることを示す。
この新しい視点により、トランスフォーマの自己着脱層と基礎となるメカニズムを比較することができ、説明可能性法を用いてmambaモデルの内部動作を覗き込むことができる。
私たちのコードは公開されています。
関連論文リスト
- LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。
画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。
我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文 参考訳(メタデータ) (2024-03-14T12:32:40Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State
Space Models [58.39336492765728]
がん診断のゴールドスタンダードである病理診断は、TransformerとMIL(Multiple Case Learning)フレームワークを併用して、全スライド画像(WSI)を用いて、優れたパフォーマンスを実現している。
選択的構造化状態空間モデル(Mamba)とMILとの協調によるWSI分類のためのMamMILフレームワークを提案する。
具体的には、マンバが一方向一次元(一次元)シーケンスモデリングしか行えないという問題を解決するため、双方向状態空間モデルと2次元コンテキスト認識ブロックを革新的に導入する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - Theoretical Foundations of Deep Selective State-Space Models [14.989266348816749]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [61.93962505128706]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data [26.457571615782985]
状態空間モデルに基づくMambaは、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。
本稿では,Mambaアーキテクチャを任意の多次元データに拡張した汎用設計であるMamba-NDを提案する。
我々は,Mamba-NDが,多次元ベンチマークにおける最先端技術と性能の競争力を示すことを示す。
論文 参考訳(メタデータ) (2024-02-08T18:30:50Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。