論文の概要: MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders
- arxiv url: http://arxiv.org/abs/2407.02228v1
- Date: Tue, 2 Jul 2024 12:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:25:45.164330
- Title: MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders
- Title(参考訳): MTMamba: マンバベースのデコーダによるマルチタスクDense Scene理解の強化
- Authors: Baijiong Lin, Weisen Jiang, Pengguang Chen, Yu Zhang, Shu Liu, Ying-Cong Chen,
- Abstract要約: マルチタスクシーン理解のための新しいマンバベースアーキテクチャであるMTMambaを提案する。
NYUDv2とPASCAL-Contextデータセットの実験では、TransformerベースのメソッドとCNNベースのメソッドよりも、MTMambaの方が優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 27.487314321249627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task dense scene understanding, which learns a model for multiple dense prediction tasks, has a wide range of application scenarios. Modeling long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba, a novel Mamba-based architecture for multi-task scene understanding. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging Mamba, while CTM explicitly models task interactions to facilitate information exchange across tasks. Experiments on NYUDv2 and PASCAL-Context datasets demonstrate the superior performance of MTMamba over Transformer-based and CNN-based methods. Notably, on the PASCAL-Context dataset, MTMamba achieves improvements of +2.08, +5.01, and +4.90 over the previous best method in the tasks of semantic segmentation, human parsing, and object boundary detection, respectively. The code is available at \url{https://github.com/EnVision-Research/MTMamba}.
- Abstract(参考訳): 複数の密集予測タスクのモデルを学ぶマルチタスク密集シーン理解には、幅広いアプリケーションシナリオがある。
長距離依存性のモデリングとクロスタスク相互作用の強化はマルチタスク密度予測に不可欠である。
本稿では,マルチタスクシーン理解のための新しいマンバベースアーキテクチャであるMTMambaを提案する。
コアブロックには、セルフタスクのMamba(STM)ブロックとクロスタスクのMamba(CTM)ブロックの2種類がある。
STMはMambaを活用することで長距離依存を処理し、CTMはタスク間の情報交換を容易にするためにタスクインタラクションを明示的にモデル化する。
NYUDv2とPASCAL-Contextデータセットの実験では、TransformerベースのメソッドとCNNベースのメソッドよりも、MTMambaの方が優れたパフォーマンスを示している。
特に、PASCAL-Contextデータセットでは、MTMambaは、セマンティックセグメンテーション、ヒューマンパーシング、オブジェクト境界検出のタスクにおいて、以前のベストメソッドよりも+2.08、+5.01、+4.90の改善を達成している。
コードは \url{https://github.com/EnVision-Research/MTMamba} で公開されている。
関連論文リスト
- Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders [26.236118242986805]
Mambaベースのデコーダを備えたマルチタスクシーン理解のための新しいアーキテクチャであるMTMamba++を提案する。
コアブロックには、セルフタスクのMambaブロックとクロスタスクのMambaブロックの2種類がある。
NYUDv2、PASCAL-Context、Cityscapesデータセットの実験では、CNNベースのメソッドとTransformerベースのメソッドよりもMTMamba++の方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-08-27T14:36:46Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。