論文の概要: CSDNet: Detect Salient Object in Depth-Thermal via A Lightweight Cross Shallow and Deep Perception Network
- arxiv url: http://arxiv.org/abs/2403.10104v1
- Date: Fri, 15 Mar 2024 08:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:59:52.051707
- Title: CSDNet: Detect Salient Object in Depth-Thermal via A Lightweight Cross Shallow and Deep Perception Network
- Title(参考訳): CSDNet:軽量クロスシャローとディープ・パーセプション・ネットワークによる深部熱湯中の塩物検出
- Authors: Xiaotong Yu, Ruihan Xie, Zhihe Zhao, Chang-Wen Chen,
- Abstract要約: CSDNetはコヒーレンスを少なくして2つのモダリティを統合するように設計されている。
CSDNet for Salient Object Detection (SOD) タスクをロボット認識に適用する。
我々のアプローチはVDT-2048データセットで検証される。
- 参考スコア(独自算出の注目度): 16.925545576557514
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While we enjoy the richness and informativeness of multimodal data, it also introduces interference and redundancy of information. To achieve optimal domain interpretation with limited resources, we propose CSDNet, a lightweight \textbf{C}ross \textbf{S}hallow and \textbf{D}eep Perception \textbf{Net}work designed to integrate two modalities with less coherence, thereby discarding redundant information or even modality. We implement our CSDNet for Salient Object Detection (SOD) task in robotic perception. The proposed method capitalises on spatial information prescreening and implicit coherence navigation across shallow and deep layers of the depth-thermal (D-T) modality, prioritising integration over fusion to maximise the scene interpretation. To further refine the descriptive capabilities of the encoder for the less-known D-T modalities, we also propose SAMAEP to guide an effective feature mapping to the generalised feature space. Our approach is tested on the VDT-2048 dataset, leveraging the D-T modality outperforms those of SOTA methods using RGB-T or RGB-D modalities for the first time, achieves comparable performance with the RGB-D-T triple-modality benchmark method with 5.97 times faster at runtime and demanding 0.0036 times fewer FLOPs. Demonstrates the proposed CSDNet effectively integrates the information from the D-T modality. The code will be released upon acceptance.
- Abstract(参考訳): 我々はマルチモーダルデータの豊かさと情報提供性を楽しむ一方で、情報の干渉や冗長性ももたらします。
限られたリソースで最適なドメイン解釈を実現するために、CSDNet(軽量な \textbf{C}ross \textbf{S}hallow と \textbf{D}eep Perception \textbf{Net}work)を提案する。
CSDNet for Salient Object Detection (SOD) タスクをロボット認識に適用する。
提案手法は,深部熱水層 (D-T) の浅層および深層を横断する空間情報事前スクリーニングと暗黙のコヒーレンスナビゲーションに着目し,融合を優先してシーン解釈を最大化する手法である。
あまり知られていないD-Tモダリティに対するエンコーダの記述能力をさらに向上するため,一般化された特徴空間への効率的な特徴マッピングを導くために,SAMAEPを提案する。
我々のアプローチはVDT-2048データセット上でテストされ、D-Tモダリティは初めてRGB-TまたはRGB-Dモダリティを用いたSOTA法よりも優れ、実行時に5.97倍高速でFLOPが0.0036倍少ないRGB-D-T三次モダリティベンチマーク手法で同等の性能を達成した。
提案したCSDNetは、D-Tモダリティからの情報を効果的に統合する。
コードは受理時にリリースされます。
関連論文リスト
- Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Depth-Cooperated Trimodal Network for Video Salient Object Detection [13.727763221832532]
我々はDCTNet(Deep-operated triOD network)を提案する。
この目的のために、まずRGBフレームから深度を生成し、次に3つのモダリティを不等に扱うアプローチを提案する。
また、各モードの雑音を抑えるための改良融合モジュール(RFM)を導入し、機能改善のために有用な情報を動的に選択する。
論文 参考訳(メタデータ) (2022-02-12T13:04:16Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。