論文の概要: DeMansia: Mamba Never Forgets Any Tokens
- arxiv url: http://arxiv.org/abs/2408.01986v1
- Date: Sun, 4 Aug 2024 10:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 15:45:06.961639
- Title: DeMansia: Mamba Never Forgets Any Tokens
- Title(参考訳): DeMansia:Mambaは決してトークンを忘れない
- Authors: Ricky Fang,
- Abstract要約: 本稿では、トランスアーキテクチャの基礎を考察し、特に長いシーケンスを扱う際の制限を強調した。
本稿では,状態空間モデルとトークンラベリング技術を統合し,画像分類タスクの性能を向上させる新しいアーキテクチャであるDeMansiaを提案する。
アーキテクチャ、ベンチマーク、および同時代のモデルとの比較は、デマンシアの有効性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines the mathematical foundations of transformer architectures, highlighting their limitations particularly in handling long sequences. We explore prerequisite models such as Mamba, Vision Mamba (ViM), and LV-ViT that pave the way for our proposed architecture, DeMansia. DeMansia integrates state space models with token labeling techniques to enhance performance in image classification tasks, efficiently addressing the computational challenges posed by traditional transformers. The architecture, benchmark, and comparisons with contemporary models demonstrate DeMansia's effectiveness. The implementation of this paper is available on GitHub at https://github.com/catalpaaa/DeMansia
- Abstract(参考訳): 本稿では, 変圧器アーキテクチャの数学的基礎を考察し, 特に長周期処理における限界を明らかにする。
Mamba、Vision Mamba (ViM)、LV-ViTといった前提モデルについて検討し、提案したアーキテクチャであるDeMansiaの道筋をたどる。
DeMansiaは、状態空間モデルとトークンラベリング技術を統合して、画像分類タスクのパフォーマンスを高め、従来のトランスフォーマーによる計算上の課題に効率的に対処する。
アーキテクチャ、ベンチマーク、および同時代のモデルとの比較は、デマンシアの有効性を示している。
この論文の実装はGitHubでhttps://github.com/catalpaaa/DeMansiaで公開されている。
関連論文リスト
- Adaptive Multi Scale Document Binarisation Using Vision Mamba [0.0]
本稿では,文書ビナライゼーションのためのMambaベースのアーキテクチャを提案する。
従来の信号処理技術にインスパイアされたガウス特徴(DoG)の差分を組み込むことにより、スキップ接続に新たな変更を加える。
論文 参考訳(メタデータ) (2024-10-30T08:43:18Z) - Mamba-ST: State Space Model for Efficient Style Transfer [5.869642560299033]
本稿では,新しい状態空間モデル(SSM)であるMambaの設計について検討する。
そこで我々は,2つの異なる埋め込みを1つの出力に組み合わせることのできるクロスアテンション層の挙動をシミュレートするために,マンバ線形方程式を適用した。
その結果,ArtFIDとFIDの両方の指標で品質が向上した。
論文 参考訳(メタデータ) (2024-09-16T15:20:48Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification [27.04370747400184]
本稿では,まずハイパースペクトル画像パッチを空間スペクトルトークンに変換するトークン生成モジュールである空間スペクトル形態マンバ(MorpMamba)モデルを提案する。
これらのトークンはモルフォロジー演算によって処理され、奥行き分離可能な畳み込み演算を用いて構造情報と形状情報を計算する。
広く使われているHSIデータセットの実験では、MorpMambaモデルはCNNモデルとTransformerモデルの両方で(パラメトリック効率)優れていた。
論文 参考訳(メタデータ) (2024-08-02T16:28:51Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation [16.476244833079182]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。