論文の概要: Hybrid Mamba for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2409.19613v1
- Date: Sun, 29 Sep 2024 08:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:16.649055
- Title: Hybrid Mamba for Few-Shot Segmentation
- Title(参考訳): Few-Shotセグメンテーション用ハイブリッドマンバ
- Authors: Qianxiong Xu, Xuanyi Liu, Lanyun Zhu, Guosheng Lin, Cheng Long, Ziyue Li, Rui Zhao,
- Abstract要約: フーショットセグメンテーション (FSS) 法では,2次複雑性に関係なく,FG (Fusion Support Foreground) をクエリ機能に導入する。
FSSのシーケンス間の依存関係をキャプチャするために、クロス(アテンションのような)Mambaを考案することを目指している。
単純なアイデアは、サポート機能をスキャンして、それを隠された状態に選択的に圧縮し、クエリ機能をシーケンシャルにスキャンする初期隠れ状態として使用する、というものだ。
- 参考スコア(独自算出の注目度): 54.562050590453225
- License:
- Abstract: Many few-shot segmentation (FSS) methods use cross attention to fuse support foreground (FG) into query features, regardless of the quadratic complexity. A recent advance Mamba can also well capture intra-sequence dependencies, yet the complexity is only linear. Hence, we aim to devise a cross (attention-like) Mamba to capture inter-sequence dependencies for FSS. A simple idea is to scan on support features to selectively compress them into the hidden state, which is then used as the initial hidden state to sequentially scan query features. Nevertheless, it suffers from (1) support forgetting issue: query features will also gradually be compressed when scanning on them, so the support features in hidden state keep reducing, and many query pixels cannot fuse sufficient support features; (2) intra-class gap issue: query FG is essentially more similar to itself rather than to support FG, i.e., query may prefer not to fuse support features but their own ones from the hidden state, yet the success of FSS relies on the effective use of support information. To tackle them, we design a hybrid Mamba network (HMNet), including (1) a support recapped Mamba to periodically recap the support features when scanning query, so the hidden state can always contain rich support information; (2) a query intercepted Mamba to forbid the mutual interactions among query pixels, and encourage them to fuse more support features from the hidden state. Consequently, the support information is better utilized, leading to better performance. Extensive experiments have been conducted on two public benchmarks, showing the superiority of HMNet. The code is available at https://github.com/Sam1224/HMNet.
- Abstract(参考訳): 多くの小ショットセグメンテーション(FSS)メソッドは、2次複雑さに関係なく、FG(Fusion Support Foreground)をクエリ機能に利用している。
最近の進歩であるMambaは、シーケンス内依存関係をうまくキャプチャできるが、複雑さは線形のみである。
したがって、FSSのシーケンス間の依存関係をキャプチャするために、クロス(アテンションのような)Mambaを考案することを目指している。
単純なアイデアは、サポート機能をスキャンして、それを隠された状態に選択的に圧縮し、クエリ機能をシーケンシャルにスキャンする初期隠れ状態として使用する、というものだ。
クエリ FG は FG をサポートするよりも本質的にはそれ自身に似ており、すなわち、クエリはサポート機能をフューズするのではなく、隠れた状態から独自のものを使うのが好まれるが、FSS の成功はサポート情報の有効利用に依存している。
そこで本研究では,(1) 検索時のサポート機能を定期的に再起動するMambaのハイブリッドネットワーク(HMNet)を設計し,隠れた状態が常にリッチなサポート情報を含むようにし,(2) クエリインターセプトされたMambaは,クエリピクセル間の相互通信を禁止し,隠れた状態からより多くのサポート機能を融合させる。
これにより、サポート情報がより活用され、パフォーマンスが向上する。
2つの公開ベンチマークで大規模な実験が行われ、HMNetの優位性を示している。
コードはhttps://github.com/Sam1224/HMNetで公開されている。
関連論文リスト
- Eliminating Feature Ambiguity for Few-Shot Segmentation [95.9916573435427]
マイクロショットセグメンテーション(FSS)の最近の進歩は、クエリとサポート機能の間のピクセル間マッチングを利用してきた。
本稿では,既存のクロスアテンションベースのFSS手法に接続可能な,新しいアンビグニティ除去ネットワーク(AENet)を提案する。
論文 参考訳(メタデータ) (2024-07-13T10:33:03Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - Self-Calibrated Cross Attention Network for Few-Shot Segmentation [65.20559109791756]
我々は、パッチベースの効率的なアテンションのために、自己校正型クロスアテンション(SCCA)ブロックを設計する。
SCCAは、同じクエリイメージからのパッチと、サポートイメージからのアライメントパッチをK&Vとしてグループ化する。
このようにして、クエリBG機能はFGをサポートするBG機能と混同され、前述の問題が軽減される。
論文 参考訳(メタデータ) (2023-08-18T04:41:50Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - MSI: Maximize Support-Set Information for Few-Shot Segmentation [27.459485560344262]
超相関写像を生成するために2つの相補的特徴源を利用して,サポートセット情報を最大化する新しい手法(MSI)を提案する。
FSSベンチマークによる実験結果から,提案手法は目に見えるマージンによって連続的に性能を向上し,より高速な収束をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-09T05:38:07Z) - Prototype as Query for Few Shot Semantic Segmentation [7.380266341356485]
Few-shot Semantic (FSS) はクエリイメージに未表示のクラスを分割するために提案された。
本稿では,ProtoFormerと呼ばれるTransformerを基盤として,クエリ機能の空間的詳細をフルにキャプチャするフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-27T08:41:50Z) - Dynamic Prototype Convolution Network for Few-Shot Semantic Segmentation [33.93192093090601]
少数ショットセマンティックセグメンテーション(FSS)の鍵となる課題は、サポートとクエリ機能間の望ましいインタラクションをどのように調整するかである。
そこで本研究では,FSSの精度を高めるために,本発明のプロトタイプコンボリューションネットワーク(DPCN)を提案する。
当社のDPCNは、kショットFSS設定下でも柔軟で効率的です。
論文 参考訳(メタデータ) (2022-04-22T11:12:37Z) - Few-Shot Segmentation via Cycle-Consistent Transformer [74.49307213431952]
本稿では,サポートとターゲット画像間の画素ワイドな関係を利用して,数ショットのセマンティックセマンティックセグメンテーション作業を容易にすることに焦点を当てる。
本稿では, 有害なサポート機能を除去するために, 新規なサイクル一貫性アテンション機構を提案する。
提案したCyCTRは,従来の最先端手法と比較して著しく改善されている。
論文 参考訳(メタデータ) (2021-06-04T07:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。