論文の概要: Modality-Guided Subnetwork for Salient Object Detection
- arxiv url: http://arxiv.org/abs/2110.04904v1
- Date: Sun, 10 Oct 2021 20:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:02:50.247500
- Title: Modality-Guided Subnetwork for Salient Object Detection
- Title(参考訳): サリエント物体検出のためのモダリティ誘導サブネットワーク
- Authors: Zongwei Wu, Guillaume Allibert, Christophe Stolz, Chao Ma, C\'edric
Demonceaux
- Abstract要約: ほとんどのRGBDネットワークは、入力側から複数のモダリティを必要とし、それらを2ストリームの設計で別々に供給する。
本稿では、モダリティ誘導サブネットワーク(MGSnet)と呼ばれる新しい融合設計を提案する。
1)RGBデータとRGBDデータの両方で機能し、使用できない場合の深度を動的に推定する。
- 参考スコア(独自算出の注目度): 5.491692465987937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent RGBD-based models for saliency detection have attracted research
attention. The depth clues such as boundary clues, surface normal, shape
attribute, etc., contribute to the identification of salient objects with
complicated scenarios. However, most RGBD networks require multi-modalities
from the input side and feed them separately through a two-stream design, which
inevitably results in extra costs on depth sensors and computation. To tackle
these inconveniences, we present in this paper a novel fusion design named
modality-guided subnetwork (MGSnet). It has the following superior designs: 1)
Our model works for both RGB and RGBD data, and dynamically estimating depth if
not available. Taking the inner workings of depth-prediction networks into
account, we propose to estimate the pseudo-geometry maps from RGB input -
essentially mimicking the multi-modality input. 2) Our MGSnet for RGB SOD
results in real-time inference but achieves state-of-the-art performance
compared to other RGB models. 3) The flexible and lightweight design of MGS
facilitates the integration into RGBD two-streaming models. The introduced
fusion design enables a cross-modality interaction to enable further progress
but with a minimal cost.
- Abstract(参考訳): 最近のsaliency detectionのためのrgbdベースのモデルが研究の注目を集めている。
境界の手がかり、表面の正常さ、形状属性などのような深さの手がかりは、複雑なシナリオによる突出した物体の識別に寄与する。
しかし、ほとんどのRGBDネットワークは入力側から複数のモダリティを必要とし、それらを2ストリームの設計で別々に供給し、必然的に深度センサーと計算に余分なコストがかかる。
これらの不便に対処するため,本論文ではモダリティ誘導サブネットワーク(mgsnet)と呼ばれる新しい核融合設計を提案する。
以下の優れたデザインがある。
1) モデルはRGBデータとRGBDデータの両方に対応し, 使用できない場合の深度を動的に推定する。
深度予測ネットワークの内部構造を考慮に入れ,RGB入力から擬似幾何マップをマルチモーダル入力を忠実に模倣して推定する。
2) RGB SOD の MGSnet は実時間推定を行うが,他の RGB モデルと比較して最先端の性能を実現する。
3)MGSのフレキシブルで軽量な設計は,RGBD2ストリーミングモデルへの統合を促進する。
導入された核融合設計は、さらなる進歩を可能にするが最小限のコストでクロスモダリティ相互作用を可能にする。
関連論文リスト
- MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection [10.848413136031025]
RGB-D Salient Object Detection (SOD)の目的は、画像内の最も目立った領域を正確に特定することである。
本稿では,RGB-D SODのためのMamba-driven cross-modal fusion network,MambaSODを提案する。
論文 参考訳(メタデータ) (2024-10-19T07:08:40Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。