論文の概要: Depth-Cooperated Trimodal Network for Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2202.06060v1
- Date: Sat, 12 Feb 2022 13:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:51:25.511275
- Title: Depth-Cooperated Trimodal Network for Video Salient Object Detection
- Title(参考訳): ビデオサリエント物体検出のための深度共動作型トライモーダルネットワーク
- Authors: Yukang Lu, Dingyao Min, Keren Fu, Qijun Zhao
- Abstract要約: 我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
- 参考スコア(独自算出の注目度): 13.727763221832532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth can provide useful geographical cues for salient object detection
(SOD), and has been proven helpful in recent RGB-D SOD methods. However,
existing video salient object detection (VSOD) methods only utilize
spatiotemporal information and seldom exploit depth information for detection.
In this paper, we propose a depth-cooperated trimodal network, called DCTNet
for VSOD, which is a pioneering work to incorporate depth information to assist
VSOD. To this end, we first generate depth from RGB frames, and then propose an
approach to treat the three modalities unequally. Specifically, a multi-modal
attention module (MAM) is designed to model multi-modal long-range dependencies
between the main modality (RGB) and the two auxiliary modalities (depth,
optical flow). We also introduce a refinement fusion module (RFM) to suppress
noises in each modality and select useful information dynamically for further
feature refinement. Lastly, a progressive fusion strategy is adopted after the
refined features to achieve final cross-modal fusion. Experiments on five
benchmark datasets demonstrate the superiority of our depth-cooperated model
against 12 state-of-the-art methods, and the necessity of depth is also
validated.
- Abstract(参考訳): 深度はsod(salient object detection)に有用な地理的手がかりを提供することができ、最近のrgb-d sod法で有用であることが証明されている。
しかし、既存のビデオサリエント物体検出(vsod)法は時空間情報のみを使用し、深度情報をほとんど利用しない。
本稿では,深度情報を組み込んでVSODを支援するDCTNet for VSODという,深度協調型三モーダルネットワークを提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
特に、マルチモーダルアテンションモジュール(mam)は、メインモダリティ(rgb)と2つの補助モダリティ(深さ、光フロー)の間のマルチモーダル長距離依存性をモデル化するように設計されている。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
最後に, 改良後の段階的融合戦略を採用し, 最終段階の相互融合を実現する。
5つのベンチマークデータセットの実験では、12の最先端手法に対する深度協調モデルの優位性を示し、深度の必要性も検証されている。
関連論文リスト
- HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Depth-conditioned Dynamic Message Propagation for Monocular 3D Object
Detection [86.25022248968908]
モノラル3Dオブジェクト検出の問題を解決するために、コンテキストと奥行きを認識する特徴表現を学びます。
KITTIベンチマークデータセットにおける単眼的アプローチにおける最新の結果を示す。
論文 参考訳(メタデータ) (2021-03-30T16:20:24Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D
Salient Object Detection [107.96418568008644]
そこで我々は,DPANetという新しいネットワークを提案し,深度マップの可能性を明確にモデル化し,モーダル間の相補性を効果的に統合する。
深度ポテンシャル知覚を導入することにより、ネットワークは深度情報のポテンシャルを学習ベースで知覚することができる。
論文 参考訳(メタデータ) (2020-03-19T07:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。