Fugu-MT 論文翻訳(概要): The Hidden Attention of Mamba Models

論文の概要: The Hidden Attention of Mamba Models

arxiv url: http://arxiv.org/abs/2403.01590v1
Date: Sun, 3 Mar 2024 18:58:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 20:48:46.131888
Title: The Hidden Attention of Mamba Models
Title（参考訳）: mambaモデルの隠れた注意
Authors: Ameen Ali, Itamar Zimerman, Lior Wolf
Abstract要約: Mamba層は効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点により、トランスの自己注意層と基礎となるメカニズムを比較することができる。
参考スコア（独自算出の注目度）: 61.25846109294293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mamba layer offers an efficient selective state space model (SSM) that is highly effective in modeling multiple domains including NLP, long-range sequences processing, and computer vision. Selective SSMs are viewed as dual models, in which one trains in parallel on the entire sequence via IO-aware parallel scan, and deploys in an autoregressive manner. We add a third view and show that such models can be viewed as attention-driven models. This new perspective enables us to compare the underlying mechanisms to that of the self-attention layers in transformers and allows us to peer inside the inner workings of the Mamba model with explainability methods. Our code is publicly available.
Abstract（参考訳）: mamba層は、nlp、長距離シーケンス処理、コンピュータビジョンを含む複数のドメインのモデリングに非常に効果的である効率的な選択的状態空間モデル(ssm)を提供する。選択的なSSMはデュアルモデルと見なされ、IO対応の並列スキャンによってシーケンス全体を並列にトレーニングし、自動回帰的にデプロイする。 3つ目のビューを加えて、そのようなモデルを注目駆動モデルとみなすことができることを示す。この新しい視点により、トランスフォーマの自己着脱層と基礎となるメカニズムを比較することができ、説明可能性法を用いてmambaモデルの内部動作を覗き込むことができる。私たちのコードは公開されています。

関連論文リスト

Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Visual Attention Exploration in Vision-Based Mamba Models [13.931745986906769]
状態空間モデル(SSM)は、トランスフォーマーモデルに代わる効率的な代替品として登場した。 SSMの最新の進歩の1つ、Mambaは、トレーニング可能なウェイトを入力トークンに割り当てる選択的スキャン機構を導入した。 Mambaはまた、2D画像を小さなパッチに分解し、1Dシーケンスとしてアレンジすることで、視覚領域にまで拡張された。
論文参考訳（メタデータ） (2025-02-28T06:33:18Z)
Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。 Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。パラメータ数は128Mから1.3Bまで様々である。
論文参考訳（メタデータ） (2024-08-22T09:27:49Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文参考訳（メタデータ） (2024-07-29T09:38:15Z)
Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文参考訳（メタデータ） (2024-07-19T11:12:08Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文参考訳（メタデータ） (2024-03-29T00:05:13Z)
VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文参考訳（メタデータ） (2024-03-20T13:48:50Z)
STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-31T16:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。