論文の概要: Middle-level Fusion for Lightweight RGB-D Salient Object Detection
- arxiv url: http://arxiv.org/abs/2104.11543v1
- Date: Fri, 23 Apr 2021 11:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 16:49:10.502183
- Title: Middle-level Fusion for Lightweight RGB-D Salient Object Detection
- Title(参考訳): 軽量RGB-Dサルエント物体検出のための中間レベル核融合
- Authors: Nianchang Huang, Qiang Zhang, Jungong Han
- Abstract要約: 本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
- 参考スコア(独自算出の注目度): 81.43951906434175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing RGB-D salient object detection (SOD) models require large
computational costs and memory consumption to accurately detect the salient
objects. This limits the real-life applications of these RGB-D SOD models. To
address this issue, a novel lightweight RGB-D SOD model is presented in this
paper. Different from most existing models which usually employ the two-stream
or single-stream structure, we propose to employ the middle-level fusion
structure for designing lightweight RGB-D SOD model, due to the fact that the
middle-level fusion structure can simultaneously exploit the modality-shared
and modality-specific information as the two-stream structure and can
significantly reduce the network's parameters as the single-stream structure.
Based on this structure, a novel information-aware multi-modal feature fusion
(IMFF) module is first designed to effectively capture the cross-modal
complementary information. Then, a novel lightweight feature-level and
decision-level feature fusion (LFDF) module is designed to aggregate the
feature-level and the decision-level saliency information in different stages
with less parameters. With IMFF and LFDF modules incorporated in the
middle-level fusion structure, our proposed model has only 3.9M parameters and
runs at 33 FPS. Furthermore, the experimental results on several benchmark
datasets verify the effectiveness and superiority of the proposed method over
some state-of-the-art methods.
- Abstract(参考訳): 既存の RGB-D salient Object Detection (SOD) モデルでは、高い計算コストとメモリ消費を必要とする。
これにより、これらのRGB-D SODモデルの実際の応用が制限される。
本稿では,新しい軽量RGB-D SODモデルについて述べる。
二つのストリーム構造や単一ストリーム構造を用いる既存のモデルとは異なり、中間レベルの融合構造は2ストリーム構造としてモダリティ共有情報とモダリティ固有情報を同時に利用でき、シングルストリーム構造としてネットワークのパラメータを著しく低減できるため、軽量なRGB-D SODモデルの設計に中間レベルの融合構造を用いる。
この構造に基づいて、新しい情報対応マルチモーダル特徴融合(IMFF)モジュールを設計し、クロスモーダル補完情報を効果的に取得する。
次に,新しい軽量な機能レベルと意思決定レベルの機能融合(lfdf)モジュールにより,特徴レベルと決定レベルのサリエンシー情報を,より少ないパラメータで異なる段階に集約する。
中層核融合構造にIMFFとLFDFモジュールが組み込まれているため,提案モデルは3.9Mパラメータしか持たず,33FPSで動作する。
さらに,いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
関連論文リスト
- RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Trear: Transformer-based RGB-D Egocentric Action Recognition [38.20137500372927]
本稿では,textbfTransformer-based RGB-D textbgocentric textbfaction textbfrecognition framework, Trearを提案する。
フレーム間アテンションエンコーダと相互アテンショナルフュージョンブロックの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-01-05T19:59:30Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。