論文の概要: Pyramidal Attention for Saliency Detection
- arxiv url: http://arxiv.org/abs/2204.06788v1
- Date: Thu, 14 Apr 2022 06:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 23:32:52.150121
- Title: Pyramidal Attention for Saliency Detection
- Title(参考訳): 塩分検出のためのピラミッド型注意
- Authors: Tanveer Hussain, Abbas Anwar, Saeed Anwar, Lars Petersson, Sung Wook
Baik
- Abstract要約: 本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
- 参考スコア(独自算出の注目度): 30.554118525502115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Salient object detection (SOD) extracts meaningful contents from an input
image. RGB-based SOD methods lack the complementary depth clues; hence,
providing limited performance for complex scenarios. Similarly, RGB-D models
process RGB and depth inputs, but the depth data availability during testing
may hinder the model's practical applicability. This paper exploits only RGB
images, estimates depth from RGB, and leverages the intermediate depth
features. We employ a pyramidal attention structure to extract multi-level
convolutional-transformer features to process initial stage representations and
further enhance the subsequent ones. At each stage, the backbone transformer
model produces global receptive fields and computing in parallel to attain
fine-grained global predictions refined by our residual convolutional attention
decoder for optimal saliency prediction. We report significantly improved
performance against 21 and 40 state-of-the-art SOD methods on eight RGB and
RGB-D datasets, respectively. Consequently, we present a new SOD perspective of
generating RGB-D SOD without acquiring depth data during training and testing
and assist RGB methods with depth clues for improved performance. The code and
trained models are available at
https://github.com/tanveer-hussain/EfficientSOD2
- Abstract(参考訳): 正対象検出(SOD)は、入力画像から意味のある内容を抽出する。
RGBベースのSODメソッドには相補的な奥行きのヒントがないため、複雑なシナリオに対して限られたパフォーマンスを提供する。
同様に、RGB-DモデルはRGBと深度入力を処理するが、テスト中の深度データの可用性はモデルの実用性を妨げる可能性がある。
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型注意構造を用いて,マルチレベル畳み込み変換特徴を抽出し,初期ステージ表現を処理し,それに続く特徴をさらに強化する。
各段階において、バックボーントランスフォーマーモデルは、最適な塩分率予測のための残差畳み込みアテンションデコーダによって微細なグローバル予測を達成するために、グローバル受容場と計算を並列に生成する。
8つのRGBおよびRGB-Dデータセット上で,21および40の最先端SOD法に対する性能改善を報告した。
そこで本研究では,RGB-D SODを訓練および試験中に深度データを取得せずに生成する新たなSOD視点を提案する。
コードとトレーニングされたモデルはhttps://github.com/tanveer-hussain/ efficientsod2で入手できる。
関連論文リスト
- Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。