論文の概要: Depth Quality-Inspired Feature Manipulation for Efficient RGB-D and
Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2208.03918v1
- Date: Mon, 8 Aug 2022 05:21:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:33:22.045383
- Title: Depth Quality-Inspired Feature Manipulation for Efficient RGB-D and
Video Salient Object Detection
- Title(参考訳): 高精度RGB-Dとビデオサルエント物体検出のための深さ特性を考慮した特徴マニピュレーション
- Authors: Wenbo Zhang, Keren Fu, Zhuo Wang, Ge-Peng Ji and Qijun Zhao
- Abstract要約: CNN-based RGB-D salient Object Detection (SOD) は検出精度を大幅に改善した。
既存のモデルは、効率と精度の点で、しばしばうまく機能しない。
精度を大幅に向上するが,計算量が少ない効率的なモジュールを提案する。
- 参考スコア(独自算出の注目度): 19.303505989449736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently CNN-based RGB-D salient object detection (SOD) has obtained
significant improvement on detection accuracy. However, existing models often
fail to perform well in terms of efficiency and accuracy simultaneously. This
hinders their potential applications on mobile devices as well as many
real-world problems. To bridge the accuracy gap between lightweight and large
models for RGB-D SOD, in this paper, an efficient module that can greatly
improve the accuracy but adds little computation is proposed. Inspired by the
fact that depth quality is a key factor influencing the accuracy, we propose an
efficient depth quality-inspired feature manipulation (DQFM) process, which can
dynamically filter depth features according to depth quality. The proposed DQFM
resorts to the alignment of low-level RGB and depth features, as well as
holistic attention of the depth stream to explicitly control and enhance
cross-modal fusion. We embed DQFM to obtain an efficient lightweight RGB-D SOD
model called DFM-Net, where we in addition design a tailored depth backbone and
a two-stage decoder as basic parts. Extensive experimental results on nine
RGB-D datasets demonstrate that our DFM-Net outperforms recent efficient
models, running at about 20 FPS on CPU with only 8.5Mb model size, and
meanwhile being 2.9/2.4 times faster and 6.7/3.1 times smaller than the latest
best models A2dele and MobileSal. It also maintains state-of-the-art accuracy
when even compared to non-efficient models. Interestingly, further statistics
and analyses verify the ability of DQFM in distinguishing depth maps of various
qualities without any quality labels. Last but not least, we further apply
DFM-Net to deal with video SOD (VSOD), achieving comparable performance against
recent efficient models while being 3/2.3 times faster/smaller than the prior
best in this field. Our code is available at https://github.com/zwbx/DFM-Net.
- Abstract(参考訳): 近年, CNN を用いた RGB-D salient Object Detection (SOD) が検出精度を大幅に向上した。
しかし、既存のモデルは効率と精度の点でよく機能しないことが多い。
これにより、モバイルデバイス上の潜在的なアプリケーションや、多くの現実世界の問題を妨げている。
本稿では,RGB-D SODの軽量モデルと大型モデル間の精度ギャップを埋めるために,精度を大幅に改善するが,計算量が少ない効率的なモジュールを提案する。
深度品質が精度に影響を及ぼす重要な要因であるという事実に着想を得て,深度品質にしたがって動的に深度特徴をフィルタリングするDQFMプロセスを提案する。
提案したDQFMは、低レベルRGBと深度の特徴の整合性、および深度流の全体的注意を考慮し、クロスモーダル融合を明示的に制御し拡張する。
我々はDQFMを組み込み、DFM-Netと呼ばれる効率的な軽量RGB-D SODモデルを得る。
9つのRGB-Dデータセットの大規模な実験結果によると、DFM-Netは最近の効率の良いモデルより優れており、CPU上ではわずか8.5Mbのモデルサイズで約20FPSで動作する。
また、非効率なモデルと比較しても最先端の精度を維持している。
興味深いことに、様々な品質の深度マップを品質ラベルなしで識別するDQFMの能力は、さらなる統計と分析によって検証される。
最後に、DFM-NetをビデオSOD(VSOD)の処理に適用し、最近の効率的なモデルと比較して3/2.3倍高速/小さい性能を実現した。
私たちのコードはhttps://github.com/zwbx/dfm-netで利用可能です。
関連論文リスト
- Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - Depth Quality-Inspired Feature Manipulation for Efficient RGB-D Salient
Object Detection [19.60615728172274]
RGB-D Salient Object Detection (SOD) は、従来のRGB SODに余分な深度情報を提供することによって、研究の関心を高めている。
既存のRGB-D SODモデルは、効率と精度の両面でうまく機能しないことが多い。
本稿では,DQFMプロセスを提案する。DQFMプロセスは効率が高く,奥行き特徴をフィルタリングするためのゲーティング機構として機能する。
論文 参考訳(メタデータ) (2021-07-05T04:03:02Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - PLUME: Efficient 3D Object Detection from Stereo Images [95.31278688164646]
既存の手法では、2つのステップでこの問題に対処する: 第一深度推定を行い、その深さ推定から擬似LiDAR点雲表現を計算し、3次元空間で物体検出を行う。
この2つのタスクを同一のメトリック空間で統一するモデルを提案する。
提案手法は,既存の手法と比較して推定時間を大幅に削減し,挑戦的なKITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-17T05:11:38Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。