論文の概要: M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection
- arxiv url: http://arxiv.org/abs/2309.08365v1
- Date: Fri, 15 Sep 2023 12:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:53:46.987085
- Title: M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection
- Title(参考訳): m$^3$net:salient object detectionのためのマルチレベル、混合、多段階アテンションネットワーク
- Authors: Yao Yuan, Pan Gao, XiaoYang Tan
- Abstract要約: M$3$Netは、Salient Object Detectionのためのアテンションネットワークである。
マルチレベル特徴間の相互作用を実現するためのクロスアテンションアプローチ。
Mixed Attention Blockは、グローバルレベルとローカルレベルの両方でコンテキストをモデリングすることを目的としている。
集約された特徴をステージごとに最適化するためのマルチレベル監視戦略。
- 参考スコア(独自算出の注目度): 22.60675416709486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing salient object detection methods mostly use U-Net or feature
pyramid structure, which simply aggregates feature maps of different scales,
ignoring the uniqueness and interdependence of them and their respective
contributions to the final prediction. To overcome these, we propose the
M$^3$Net, i.e., the Multilevel, Mixed and Multistage attention network for
Salient Object Detection (SOD). Firstly, we propose Multiscale Interaction
Block which innovatively introduces the cross-attention approach to achieve the
interaction between multilevel features, allowing high-level features to guide
low-level feature learning and thus enhancing salient regions. Secondly,
considering the fact that previous Transformer based SOD methods locate salient
regions only using global self-attention while inevitably overlooking the
details of complex objects, we propose the Mixed Attention Block. This block
combines global self-attention and window self-attention, aiming at modeling
context at both global and local levels to further improve the accuracy of the
prediction map. Finally, we proposed a multilevel supervision strategy to
optimize the aggregated feature stage-by-stage. Experiments on six challenging
datasets demonstrate that the proposed M$^3$Net surpasses recent CNN and
Transformer-based SOD arts in terms of four metrics. Codes are available at
https://github.com/I2-Multimedia-Lab/M3Net.
- Abstract(参考訳): 既存の有能なオブジェクト検出手法の多くは、U-Netまたは特徴ピラミッド構造を用いており、それは単に異なるスケールの特徴マップを集約し、それらの特異性と相互依存性を無視し、最終的な予測へのそれぞれの貢献を無視する。
そこで本稿では,M$^3$Net (Multilevel, Mixed and Multistage attention network for Salient Object Detection (SOD) を提案する。
まず,マルチレベルの特徴間の相互作用を実現するために,クロスアテンション手法を革新的に導入し,高レベルの特徴が低レベルの特徴学習をガイドし,従って有能な領域を拡張できるマルチスケールインタラクションブロックを提案する。
次に,前回のtransformerベースのsod法では,グローバルな自己着眼のみを用いて,複雑な物体の細部を必然的に見過ごしながら,突出領域を探索するという事実を考慮し,混合注意ブロックを提案する。
このブロックは、グローバル・セルフ・アテンションとウィンドウ・セルフアテンションを組み合わせることで、グローバルとローカルの両方のレベルのコンテキストをモデリングし、予測マップの精度をさらに向上させる。
最後に,集約された特徴をステージごとに最適化する多段階監視手法を提案する。
6つの挑戦的なデータセットの実験では、提案されたM$^3$Netが、最近のCNNとTransformerベースのSODアートを4つのメトリクスで上回っている。
コードはhttps://github.com/I2-Multimedia-Lab/M3Netで入手できる。
関連論文リスト
- PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。