論文の概要: ReMamber: Referring Image Segmentation with Mamba Twister
- arxiv url: http://arxiv.org/abs/2403.17839v1
- Date: Tue, 26 Mar 2024 16:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:37:40.640148
- Title: ReMamber: Referring Image Segmentation with Mamba Twister
- Title(参考訳): ReMamber:Mamba Twisterでイメージセグメンテーションを参照
- Authors: Yuhuan Yang, Chaofan Ma, Jiangchao Yao, Zhun Zhong, Ya Zhang, Yanfeng Wang,
- Abstract要約: ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
- 参考スコア(独自算出の注目度): 51.291487576255435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Image Segmentation (RIS) leveraging transformers has achieved great success on the interpretation of complex visual-language tasks. However, the quadratic computation cost makes it resource-consuming in capturing long-range visual-language dependencies. Fortunately, Mamba addresses this with efficient linear complexity in processing. However, directly applying Mamba to multi-modal interactions presents challenges, primarily due to inadequate channel interactions for the effective fusion of multi-modal data. In this paper, we propose ReMamber, a novel RIS architecture that integrates the power of Mamba with a multi-modal Mamba Twister block. The Mamba Twister explicitly models image-text interaction, and fuses textual and visual features through its unique channel and spatial twisting mechanism. We achieve the state-of-the-art on three challenging benchmarks. Moreover, we conduct thorough analyses of ReMamber and discuss other fusion designs using Mamba. These provide valuable perspectives for future research.
- Abstract(参考訳): 変換器を利用した画像分割(RIS)の参照は、複雑な視覚言語タスクの解釈において大きな成功を収めた。
しかし、二次計算コストは、長期の視覚言語依存を捉えるのにリソースを消費する。
幸いなことに、Mambaは処理の効率的な線形複雑性によってこの問題に対処している。
しかし、マンバを直接マルチモーダル相互作用に適用することは、主にマルチモーダルデータの効果的な融合のためのチャンネル間相互作用が不十分なため、課題を提起する。
本稿では,マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャであるReMamberを提案する。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
3つの挑戦的なベンチマークで最先端のベンチマークを実現しています。
さらに、ReMamberの徹底的な解析を行い、Mambaを用いた他の融合設計について議論する。
これらは将来の研究に価値ある視点を与えてくれる。
関連論文リスト
- A Survey on Vision Mamba: Models, Applications and Challenges [35.132647051030084]
最近の選択的構造化状態空間モデルであるMambaは、長いシーケンスモデリングタスクにおいて優れた性能を発揮する。
Mambaは畳み込みニューラルネットワークのモデリング制約を緩和し、Transformerと同様の高度なモデリング機能を提供する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - FusionMamba: Efficient Image Fusion with State Space Model [35.57157248152558]
FusionMambaは、効率的な画像融合のための革新的な方法である。
本稿では,空間的特徴とスペクトル的特徴を効率よく,独立的に,階層的に抽出する新しいアーキテクチャを提案する。
空間情報とスペクトル情報を効果的に組み合わせるために,両入力に対応するため,Mambaブロックを拡張した。
論文 参考訳(メタデータ) (2024-04-11T17:29:56Z) - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z) - LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image
Segmentation [10.563051220050035]
本稿では,軽量なフレームワークとして,Mamba と UNet を統合した Lightweight Mamba UNet (LightM-UNet) を紹介する。
特に、LightM-UNetはResidual Vision Mamba Layerを純粋なMamba方式で利用し、深い意味的特徴を抽出し、長距離空間依存をモデル化する。
2つの実世界の2D/3Dデータセットで実施された実験は、LightM-UNetが既存の最先端の文献を上回っていることを示している。
論文 参考訳(メタデータ) (2024-03-08T12:07:42Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [73.06596715100859]
基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - Pan-Mamba: Effective pan-sharpening with State Space Model [21.032910745931936]
パン・マンバ(Pan-Mamba)は,グローバルな情報モデリングにおいて,マンバモデルの効率性を活用する新しいパン・シャーピングネットワークである。
提案手法は最先端の手法を超越し,パンシャーピングにおいて優れた融合結果を示す。
この研究は、マンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。
論文 参考訳(メタデータ) (2024-02-19T14:54:54Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。