論文の概要: M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection
- arxiv url: http://arxiv.org/abs/2309.08365v1
- Date: Fri, 15 Sep 2023 12:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:53:46.987085
- Title: M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection
- Title(参考訳): m$^3$net:salient object detectionのためのマルチレベル、混合、多段階アテンションネットワーク
- Authors: Yao Yuan, Pan Gao, XiaoYang Tan
- Abstract要約: M$3$Netは、Salient Object Detectionのためのアテンションネットワークである。
マルチレベル特徴間の相互作用を実現するためのクロスアテンションアプローチ。
Mixed Attention Blockは、グローバルレベルとローカルレベルの両方でコンテキストをモデリングすることを目的としている。
集約された特徴をステージごとに最適化するためのマルチレベル監視戦略。
- 参考スコア(独自算出の注目度): 22.60675416709486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing salient object detection methods mostly use U-Net or feature
pyramid structure, which simply aggregates feature maps of different scales,
ignoring the uniqueness and interdependence of them and their respective
contributions to the final prediction. To overcome these, we propose the
M$^3$Net, i.e., the Multilevel, Mixed and Multistage attention network for
Salient Object Detection (SOD). Firstly, we propose Multiscale Interaction
Block which innovatively introduces the cross-attention approach to achieve the
interaction between multilevel features, allowing high-level features to guide
low-level feature learning and thus enhancing salient regions. Secondly,
considering the fact that previous Transformer based SOD methods locate salient
regions only using global self-attention while inevitably overlooking the
details of complex objects, we propose the Mixed Attention Block. This block
combines global self-attention and window self-attention, aiming at modeling
context at both global and local levels to further improve the accuracy of the
prediction map. Finally, we proposed a multilevel supervision strategy to
optimize the aggregated feature stage-by-stage. Experiments on six challenging
datasets demonstrate that the proposed M$^3$Net surpasses recent CNN and
Transformer-based SOD arts in terms of four metrics. Codes are available at
https://github.com/I2-Multimedia-Lab/M3Net.
- Abstract(参考訳): 既存の有能なオブジェクト検出手法の多くは、U-Netまたは特徴ピラミッド構造を用いており、それは単に異なるスケールの特徴マップを集約し、それらの特異性と相互依存性を無視し、最終的な予測へのそれぞれの貢献を無視する。
そこで本稿では,M$^3$Net (Multilevel, Mixed and Multistage attention network for Salient Object Detection (SOD) を提案する。
まず,マルチレベルの特徴間の相互作用を実現するために,クロスアテンション手法を革新的に導入し,高レベルの特徴が低レベルの特徴学習をガイドし,従って有能な領域を拡張できるマルチスケールインタラクションブロックを提案する。
次に,前回のtransformerベースのsod法では,グローバルな自己着眼のみを用いて,複雑な物体の細部を必然的に見過ごしながら,突出領域を探索するという事実を考慮し,混合注意ブロックを提案する。
このブロックは、グローバル・セルフ・アテンションとウィンドウ・セルフアテンションを組み合わせることで、グローバルとローカルの両方のレベルのコンテキストをモデリングし、予測マップの精度をさらに向上させる。
最後に,集約された特徴をステージごとに最適化する多段階監視手法を提案する。
6つの挑戦的なデータセットの実験では、提案されたM$^3$Netが、最近のCNNとTransformerベースのSODアートを4つのメトリクスで上回っている。
コードはhttps://github.com/I2-Multimedia-Lab/M3Netで入手できる。
関連論文リスト
- Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Model-Agnostic Hierarchical Attention for 3D Object Detection [81.33112745926113]
変圧器を用いた3次元検出器のためのモジュラー化階層設計として,2つの新しい注意機構を提案する。
異なるスケールで機能学習を可能にするために,単一スケールの入力機能から複数スケールのトークンを構築するシンプルなマルチスケールアテンションを提案する。
局所的特徴集約のために,各バウンディングボックスの提案に対して適応的なアテンション範囲を持つサイズ適応型局所アテンションを提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。