論文の概要: Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective
- arxiv url: http://arxiv.org/abs/2505.04758v1
- Date: Wed, 07 May 2025 19:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.653014
- Title: Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective
- Title(参考訳): 速度精度トレードオフの観点からの軽量RGB-D有向物体検出
- Authors: Songsong Duan, Xi Yang, Nannan Wang, Xinbo Gao,
- Abstract要約: 現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
- 参考スコア(独自算出の注目度): 54.91271106816616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current RGB-D methods usually leverage large-scale backbones to improve accuracy but sacrifice efficiency. Meanwhile, several existing lightweight methods are difficult to achieve high-precision performance. To balance the efficiency and performance, we propose a Speed-Accuracy Tradeoff Network (SATNet) for Lightweight RGB-D SOD from three fundamental perspectives: depth quality, modality fusion, and feature representation. Concerning depth quality, we introduce the Depth Anything Model to generate high-quality depth maps,which effectively alleviates the multi-modal gaps in the current datasets. For modality fusion, we propose a Decoupled Attention Module (DAM) to explore the consistency within and between modalities. Here, the multi-modal features are decoupled into dual-view feature vectors to project discriminable information of feature maps. For feature representation, we develop a Dual Information Representation Module (DIRM) with a bi-directional inverted framework to enlarge the limited feature space generated by the lightweight backbones. DIRM models texture features and saliency features to enrich feature space, and employ two-way prediction heads to optimal its parameters through a bi-directional backpropagation. Finally, we design a Dual Feature Aggregation Module (DFAM) in the decoder to aggregate texture and saliency features. Extensive experiments on five public RGB-D SOD datasets indicate that the proposed SATNet excels state-of-the-art (SOTA) CNN-based heavyweight models and achieves a lightweight framework with 5.2 M parameters and 415 FPS.
- Abstract(参考訳): 現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
一方,既存の軽量手法では高精度な性能を実現するのが困難である。
効率と性能のバランスをとるため,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
ディープ・クオリティに関しては、Depth Anything Modelを導入して高品質なディープ・マップを生成し、現在のデータセットにおけるマルチモーダル・ギャップを効果的に軽減する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
ここでは、マルチモーダルな特徴をデュアルビュー特徴ベクトルに分解し、特徴写像の識別可能な情報を投影する。
特徴表現のために、軽量なバックボーンによって生成される限られた特徴空間を拡大する双方向逆転フレームワークを備えたデュアル情報表現モジュール(DIRM)を開発した。
DIRMは、テクスチャの特徴と相性の特徴をモデル化し、特徴空間を豊かにし、双方向のバックプロパゲーションを通じてパラメータを最適化するために双方向予測ヘッドを使用する。
最後に,デコーダ内に2つの特徴集約モジュール(DFAM)を設計し,テクスチャとサリエンシを集約する。
5つの公開RGB-D SODデータセットの大規模な実験により、SATNetは最先端(SOTA)CNNベースの重み付けモデルに優れており、5.2Mパラメータと415FPSの軽量フレームワークを実現している。
関連論文リスト
- Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。