論文の概要: Depth Awakens: A Depth-perceptual Attention Fusion Network for RGB-D Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2405.05614v1
- Date: Thu, 9 May 2024 08:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:52:35.661917
- Title: Depth Awakens: A Depth-perceptual Attention Fusion Network for RGB-D Camouflaged Object Detection
- Title(参考訳): 深度覚醒:RGB-Dカモフラージュ物体検出のための深度知覚的注意融合ネットワーク
- Authors: Xinran Liua, Lin Qia, Yuxuan Songa, Qi Wen,
- Abstract要約: 既存のCODモデルは、視覚システムが本物の3D環境内で動作するという事実を見落としている。
本稿では,深度マップを補助入力として利用する新しい深度知覚注意融合ネットワークを提案する。
ネットワークはトリデントブランチエンコーダを使用して、色情報と深度情報とその通信を抽出する。
- 参考スコア(独自算出の注目度): 1.0535324143528204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged object detection (COD) presents a persistent challenge in accurately identifying objects that seamlessly blend into their surroundings. However, most existing COD models overlook the fact that visual systems operate within a genuine 3D environment. The scene depth inherent in a single 2D image provides rich spatial clues that can assist in the detection of camouflaged objects. Therefore, we propose a novel depth-perception attention fusion network that leverages the depth map as an auxiliary input to enhance the network's ability to perceive 3D information, which is typically challenging for the human eye to discern from 2D images. The network uses a trident-branch encoder to extract chromatic and depth information and their communications. Recognizing that certain regions of a depth map may not effectively highlight the camouflaged object, we introduce a depth-weighted cross-attention fusion module to dynamically adjust the fusion weights on depth and RGB feature maps. To keep the model simple without compromising effectiveness, we design a straightforward feature aggregation decoder that adaptively fuses the enhanced aggregated features. Experiments demonstrate the significant superiority of our proposed method over other states of the arts, which further validates the contribution of depth information in camouflaged object detection. The code will be available at https://github.com/xinran-liu00/DAF-Net.
- Abstract(参考訳): カモフラージュされた物体検出(COD)は、周囲にシームレスに溶け込む物体を正確に識別する上で、永続的な課題を示す。
しかし、既存のCODモデルのほとんどは、視覚システムが本物の3D環境で動作しているという事実を見落としている。
単一の2次元画像に固有のシーン深度は、カモフラージュされた物体の検出を補助する豊富な空間的手がかりを提供する。
そこで本研究では, 深度マップを補助入力として活用して, 人間の目が2次元画像から識別することの難しさである3次元情報を知覚する能力を高めるための, 新たな深度知覚注意融合ネットワークを提案する。
ネットワークはトリデントブランチエンコーダを使用して、色情報と深度情報とその通信を抽出する。
深度マップの特定の領域がカモフラージュされた対象を効果的に強調できないことを認識し,深度マップとRGB特徴マップの融合重みを動的に調整する深度重み付きクロスアテンション融合モジュールを導入する。
モデルの有効性を損なうことなく、モデルをシンプルに保つために、拡張された集約された特徴を適応的に融合する単純な特徴集約デコーダを設計する。
実験により,提案手法が他の最先端技術よりも優れていることを示すとともに,カモフラージュされた物体検出における深度情報の寄与をさらに検証した。
コードはhttps://github.com/xinran-liu00/DAF-Netで入手できる。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - MonoCD: Monocular 3D Object Detection with Complementary Depths [9.186673054867866]
深度推定は単分子3次元物体検出に不可欠だが挑戦的なサブタスクである。
2つの新しい設計で深度の相補性を高めることを提案する。
KITTIベンチマーク実験により, 余分なデータを導入することなく, 最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2024-04-04T03:30:49Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [61.89277940084792]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Depth-Guided Camouflaged Object Detection [31.99397550848777]
生物学の研究は、深度がカモフラージュされた物体の発見に有用な物体の局在の手がかりとなることを示唆している。
深度情報はカモフラージュされた物体検出には使われていない。
本稿では,既存の単分子深度推定法から事前計算した深度マップを用いた深度誘導型カモフラージュ物体検出ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-24T17:51:31Z) - VR3Dense: Voxel Representation Learning for 3D Object Detection and
Monocular Dense Depth Reconstruction [0.951828574518325]
3次元物体検出と単眼深層再構成ニューラルネットワークを共同トレーニングする方法を紹介します。
推論中に入力、LiDARポイントクラウド、単一のRGBイメージとして取得し、オブジェクトポーズ予測と密に再構築された深度マップを生成します。
物体検出は教師付き方式で訓練されるが,自己教師型と教師型の両方の損失関数を用いて深度予測ネットワークを訓練する。
論文 参考訳(メタデータ) (2021-04-13T04:25:54Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - Expandable YOLO: 3D Object Detection from RGB-D Images [64.14512458954344]
本稿では,ステレオカメラから深度とカラー画像を入力する軽量物体検出器の構築を目的とする。
YOLOv3のネットワークアーキテクチャを中央から3Dに拡張することにより、深さ方向の出力が可能となる。
領域抽出結果の精度を確認するため、3次元空間におけるユニノン(IoU)の切断を導入する。
論文 参考訳(メタデータ) (2020-06-26T07:32:30Z) - Stereo RGB and Deeper LIDAR Based Network for 3D Object Detection [40.34710686994996]
3Dオブジェクト検出は、自動運転のシナリオにおいて新たな課題となっている。
以前の作業では、プロジェクションベースまたはボクセルベースのモデルを使用して3Dポイントクラウドを処理していた。
本稿では,意味情報と空間情報の同時利用が可能なStereo RGBおよびDeeper LIDARフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T11:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。