論文の概要: MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders
- arxiv url: http://arxiv.org/abs/2408.15101v1
- Date: Tue, 27 Aug 2024 14:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:23:24.347663
- Title: MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders
- Title(参考訳): MTMamba++: マンバベースのデコーダによるマルチタスクDense Scene理解の強化
- Authors: Baijiong Lin, Weisen Jiang, Pengguang Chen, Shu Liu, Ying-Cong Chen,
- Abstract要約: Mambaベースのデコーダを備えたマルチタスクシーン理解のための新しいアーキテクチャであるMTMamba++を提案する。
コアブロックには、セルフタスクのMambaブロックとクロスタスクのMambaブロックの2種類がある。
NYUDv2、PASCAL-Context、Cityscapesデータセットの実験では、CNNベースのメソッドとTransformerベースのメソッドよりもMTMamba++の方が優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 26.236118242986805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task dense scene understanding, which trains a model for multiple dense prediction tasks, has a wide range of application scenarios. Capturing long-range dependency and enhancing cross-task interactions are crucial to multi-task dense prediction. In this paper, we propose MTMamba++, a novel architecture for multi-task scene understanding featuring with a Mamba-based decoder. It contains two types of core blocks: self-task Mamba (STM) block and cross-task Mamba (CTM) block. STM handles long-range dependency by leveraging state-space models, while CTM explicitly models task interactions to facilitate information exchange across tasks. We design two types of CTM block, namely F-CTM and S-CTM, to enhance cross-task interaction from feature and semantic perspectives, respectively. Experiments on NYUDv2, PASCAL-Context, and Cityscapes datasets demonstrate the superior performance of MTMamba++ over CNN-based and Transformer-based methods. The code is available at https://github.com/EnVision-Research/MTMamba.
- Abstract(参考訳): 複数の密集予測タスクのモデルを訓練するマルチタスク密集シーン理解には、幅広い応用シナリオがある。
長距離依存の捕捉とクロスタスク相互作用の強化は、マルチタスクの密接な予測に不可欠である。
本稿では,マルチタスクシーン理解のための新しいアーキテクチャであるMTMamba++を提案する。
コアブロックには、セルフタスクのMamba(STM)ブロックとクロスタスクのMamba(CTM)ブロックの2種類がある。
STMは状態空間モデルを活用することで長距離依存を処理する一方、CTMはタスク間の情報交換を容易にするためにタスクインタラクションを明示的にモデル化する。
本研究では,F-CTMとS-CTMという2種類のCTMブロックを設計し,機能的視点と意味論的視点からタスク間相互作用を強化する。
NYUDv2、PASCAL-Context、Cityscapesデータセットの実験では、CNNベースのメソッドとTransformerベースのメソッドよりもMTMamba++の方が優れたパフォーマンスを示している。
コードはhttps://github.com/EnVision-Research/MTMamba.comで入手できる。
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders [27.487314321249627]
マルチタスクシーン理解のための新しいマンバベースアーキテクチャであるMTMambaを提案する。
NYUDv2とPASCAL-Contextデータセットの実験では、TransformerベースのメソッドとCNNベースのメソッドよりも、MTMambaの方が優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-02T12:52:18Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard
Parameter Sharing [72.56219471145232]
ハードパラメータ共有を伴うST/MTマルチタスクフレームワークを提案する。
本手法は,事前処理による音声文のモダリティギャップを低減する。
我々は,注意エンコーダ・デコーダ,コネクショニスト時間分類(CTC),トランスデューサ,共同CTC/アテンションモデルを平均+0.5BLEUで改善することを示す。
論文 参考訳(メタデータ) (2023-09-27T17:48:14Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。