論文の概要: SiaTrans: Siamese Transformer Network for RGB-D Salient Object Detection
with Depth Image Classification
- arxiv url: http://arxiv.org/abs/2207.04224v1
- Date: Sat, 9 Jul 2022 08:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-12 13:30:24.530429
- Title: SiaTrans: Siamese Transformer Network for RGB-D Salient Object Detection
with Depth Image Classification
- Title(参考訳): SiaTrans:深度画像分類によるRGB-D能動物体検出のためのシームス変圧器ネットワーク
- Authors: Xingzhao Jia and Dongye Changlei and Yanjun Peng
- Abstract要約: 本稿では,新しいRGB-Dサルエント物体検出モデル(SiaTrans)を提案する。
SiaTransは、RGB-Dサリエンシマップのトレーニングと同時に、深度画像の品質分類のトレーニングを可能にする。
9つのRGB-D SODベンチマークデータセットの実験によると、SiaTransは全体的なパフォーマンスが最も優れており、最近の最先端の手法と比べても最小である。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-D SOD uses depth information to handle challenging scenes and obtain
high-quality saliency maps. Existing state-of-the-art RGB-D saliency detection
methods overwhelmingly rely on the strategy of directly fusing depth
information. Although these methods improve the accuracy of saliency prediction
through various cross-modality fusion strategies, misinformation provided by
some poor-quality depth images can affect the saliency prediction result. To
address this issue, a novel RGB-D salient object detection model (SiaTrans) is
proposed in this paper, which allows training on depth image quality
classification at the same time as training on SOD. In light of the common
information between RGB and depth images on salient objects, SiaTrans uses a
Siamese transformer network with shared weight parameters as the encoder and
extracts RGB and depth features concatenated on the batch dimension, saving
space resources without compromising performance. SiaTrans uses the Class token
in the backbone network (T2T-ViT) to classify the quality of depth images
without preventing the token sequence from going on with the saliency detection
task. Transformer-based cross-modality fusion module (CMF) can effectively fuse
RGB and depth information. And in the testing process, CMF can choose to fuse
cross-modality information or enhance RGB information according to the quality
classification signal of the depth image. The greatest benefit of our designed
CMF and decoder is that they maintain the consistency of RGB and RGB-D
information decoding: SiaTrans decodes RGB-D or RGB information under the same
model parameters according to the classification signal during testing.
Comprehensive experiments on nine RGB-D SOD benchmark datasets show that
SiaTrans has the best overall performance and the least computation compared
with recent state-of-the-art methods.
- Abstract(参考訳): RGB-D SODは、深度情報を用いて、挑戦的なシーンを処理し、高品質な唾液マップを得る。
既存のRGB-Dの精度検出手法は、直接深度情報を拡散する戦略を圧倒的に頼っている。
これらの手法は様々なクロスモダリティ・フュージョン戦略による塩分予測の精度を向上させるが、低画質の深度画像による誤報は塩分予測結果に影響を及ぼす可能性がある。
この問題に対処するために,SODのトレーニングと同時に深度画像品質分類のトレーニングを可能にする新しいRGB-D Salient Object Detection Model(SiaTrans)を提案する。
SiaTransは、RGBとサルエントオブジェクトの深度画像の共通情報に基づいて、共有重みパラメータを持つシームズトランスネットワークをエンコーダとして使用し、バッチ次元に連結したRGBと深度特徴を抽出し、性能を損なうことなく宇宙資源を節約する。
SiaTransは、バックボーンネットワーク(T2T-ViT)のClassトークンを使用して、トークンシーケンスが唾液検出タスクで進行することを防ぐことなく、深さ画像の品質を分類する。
トランスフォーマーベースの相互モード融合モジュール(CMF)は、RGBと深度情報を効果的に融合することができる。
また、テスト工程では、深度画像の品質分類信号に応じて、相互モダリティ情報を融合するか、RGB情報を強化することができる。
設計したCMFとデコーダの最大の利点は、RGBとRGB-D情報の整合性を維持することである: SiaTransは、テスト中の分類信号に従って、同じモデルパラメータの下でRGB-DまたはRGB情報をデコードする。
9つのrgb-d sodベンチマークデータセットに関する包括的実験により、siatransは最新の最先端手法と比較して、全体的な性能と計算量が最も低いことが示されている。
関連論文リスト
- Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection [15.371153771528093]
RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNet には $i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
論文 参考訳(メタデータ) (2021-12-02T12:48:37Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。