論文の概要: Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction
- arxiv url: http://arxiv.org/abs/2203.04895v1
- Date: Wed, 9 Mar 2022 17:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:22:54.605424
- Title: Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction
- Title(参考訳): 健全物体検出・深さ推定・輪郭抽出の連成学習
- Authors: Xiaoqi Zhao, Youwei Pang, Lihe Zhang and Huchuan Lu
- Abstract要約: RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
- 参考スコア(独自算出の注目度): 91.43066633305662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from color independence, illumination invariance and location
discrimination attributed by the depth map, it can provide important
supplemental information for extracting salient objects in complex
environments. However, high-quality depth sensors are expensive and can not be
widely applied. While general depth sensors produce the noisy and sparse depth
information, which brings the depth-based networks with irreversible
interference. In this paper, we propose a novel multi-task and multi-modal
filtered transformer (MMFT) network for RGB-D salient object detection (SOD).
Specifically, we unify three complementary tasks: depth estimation, salient
object detection and contour estimation. The multi-task mechanism promotes the
model to learn the task-aware features from the auxiliary tasks. In this way,
the depth information can be completed and purified. Moreover, we introduce a
multi-modal filtered transformer (MFT) module, which equips with three
modality-specific filters to generate the transformer-enhanced feature for each
modality. The proposed model works in a depth-free style during the testing
phase. Experiments show that it not only significantly surpasses the
depth-based RGB-D SOD methods on multiple datasets, but also precisely predicts
a high-quality depth map and salient contour at the same time. And, the
resulted depth map can help existing RGB-D SOD methods obtain significant
performance gain.
- Abstract(参考訳): 色独立性,照度不変性,深度マップによる位置識別により,複雑な環境下での塩物抽出に重要な補足情報を提供することができる。
しかし、高品質な深度センサーは高価であり、広くは適用できない。
一般的な深度センサはノイズとスパース深度情報を生成するため、深度に基づくネットワークは不可逆的な干渉をもたらす。
本稿では,RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には,深度推定,サルエント物体検出,輪郭推定の3つの補完タスクを統合する。
マルチタスク機構は、補助タスクからタスク認識機能を学ぶためのモデルを促進する。
これにより、深度情報を完了して浄化することができる。
さらに,マルチモーダルフィルタトランス(mft)モジュールを導入し,各モダリティに対してトランスフォーマティ固有のフィルタを3つ装備し,トランスフォーマティ特性を生成する。
提案したモデルは,テストフェーズ中にディープフリー方式で動作する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
また,既存のRGB-D SOD法の性能向上に寄与する。
関連論文リスト
- OPEN: Object-wise Position Embedding for Multi-view 3D Object Detection [102.0744303467713]
OPENと呼ばれる新しい多視点3Dオブジェクト検出器を提案する。
我々の主目的は、提案したオブジェクト指向位置埋め込みを通して、オブジェクトワイド情報をネットワークに効果的に注入することである。
OPENは、nuScenesテストベンチマークで64.4%のNDSと56.7%のmAPで、最先端の新たなパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-07-15T14:29:15Z) - Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - RBF Weighted Hyper-Involution for RGB-D Object Detection [0.0]
リアルタイムと2つのストリームRGBDオブジェクト検出モデルを提案する。
提案モデルでは, 深度誘導型ハイパーインボリューションを生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導型ハイパーインボリューションと, アップサンプリングに基づくトレーニング可能な融合層からなる。
提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-30T11:25:34Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention [14.790193023912973]
本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T02:41:27Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - BridgeNet: A Joint Learning Network of Depth Map Super-Resolution and
Monocular Depth Estimation [60.34562823470874]
本稿では,DSR(Deep Map Super- resolution)とMDE(Monocular depth Estimation)の併用学習ネットワークを提案する。
1つは特徴符号化プロセスのために設計された高周波アテンションブリッジ(HABdg)で、これはDSRタスクを誘導するMDEタスクの高周波情報を学ぶ。
もう一つは、深度マップ再構築プロセス用に設計されたコンテンツガイダンスブリッジ(CGBdg)であり、MDEタスクのためにDSRタスクから学んだコンテンツガイダンスを提供する。
論文 参考訳(メタデータ) (2021-07-27T01:28:23Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Deep RGB-D Saliency Detection with Depth-Sensitive Attention and
Automatic Multi-Modal Fusion [15.033234579900657]
RGB-Dサラエントオブジェクト検出(SOD)は通常、2つのモダリティ、すなわちRGBと深さの分類または回帰の問題として定式化される。
本稿では,salient objectsの奥行き方向幾何学的前置を用いた深さ感応型rgb特徴モデリング手法を提案する。
7つの標準ベンチマークに関する実験は、最先端技術に対する提案手法の有効性を示している。
論文 参考訳(メタデータ) (2021-03-22T13:28:45Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。