論文の概要: Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection
- arxiv url: http://arxiv.org/abs/2309.07297v1
- Date: Wed, 13 Sep 2023 20:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 17:01:57.290910
- Title: Multi-Modal Hybrid Learning and Sequential Training for RGB-T Saliency
Detection
- Title(参考訳): RGB-T周期検出のためのマルチモードハイブリッド学習とシーケンストレーニング
- Authors: Guangyu Ren, Jitesh Joshi, Youngjun Cho
- Abstract要約: RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
既存の手法では、クロスモーダルの特徴を無視し、RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
まず、教師付きおよび自己教師付き損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
- 参考スコア(独自算出の注目度): 10.589062261564631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-T saliency detection has emerged as an important computer vision task,
identifying conspicuous objects in challenging scenes such as dark
environments. However, existing methods neglect the characteristics of
cross-modal features and rely solely on network structures to fuse RGB and
thermal features. To address this, we first propose a Multi-Modal Hybrid loss
(MMHL) that comprises supervised and self-supervised loss functions. The
supervised loss component of MMHL distinctly utilizes semantic features from
different modalities, while the self-supervised loss component reduces the
distance between RGB and thermal features. We further consider both spatial and
channel information during feature fusion and propose the Hybrid Fusion Module
to effectively fuse RGB and thermal features. Lastly, instead of jointly
training the network with cross-modal features, we implement a sequential
training strategy which performs training only on RGB images in the first stage
and then learns cross-modal features in the second stage. This training
strategy improves saliency detection performance without computational
overhead. Results from performance evaluation and ablation studies demonstrate
the superior performance achieved by the proposed method compared with the
existing state-of-the-art methods.
- Abstract(参考訳): RGB-Tサリエンシ検出は、暗黒環境のような困難な場面で顕著な物体を識別する重要なコンピュータビジョンタスクとして登場した。
しかし,既存手法はクロスモーダルの特徴を無視し,RGBと熱的特徴を融合させるネットワーク構造のみに依存している。
そこで我々はまず,教師付きおよび自己監督型損失関数を含むマルチモーダルハイブリッド損失(MMHL)を提案する。
MMHLの教師付き損失成分は,RGBと熱的特徴の間の距離を減少させる一方,異なるモードのセマンティック特徴を明瞭に活用する。
さらに,機能融合中の空間情報とチャネル情報の両方を検討し,rgbと熱的特徴を効果的に融合するハイブリッド融合モジュールを提案する。
最後に,ネットワークをクロスモーダルな特徴で共同でトレーニングする代わりに,第1段階でRGB画像のみをトレーニングし,第2段階でクロスモーダルな特徴を学習するシーケンシャルなトレーニング戦略を実装した。
このトレーニング戦略は,計算オーバーヘッドを伴わずにサリエンシ検出性能を向上させる。
性能評価およびアブレーション実験の結果から, 従来の最先端手法と比較して, 提案手法による優れた性能が得られた。
関連論文リスト
- Channel and Spatial Relation-Propagation Network for RGB-Thermal
Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。
RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文 参考訳(メタデータ) (2023-08-24T03:43:47Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Modality-Adaptive Mixup and Invariant Decomposition for RGB-Infrared
Person Re-Identification [84.32086702849338]
RGB-赤外線人物再同定のための新しいモダリティ適応混合・不変分解(MID)手法を提案する。
MIDは、RGBと赤外線画像の混合画像を生成するためのモダリティ適応混合方式を設計する。
2つの挑戦的なベンチマーク実験は、最先端の手法よりもMIDの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-03T14:26:49Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Multi-Scale Cascading Network with Compact Feature Learning for
RGB-Infrared Person Re-Identification [35.55895776505113]
マルチスケールパートアウェアカスケードフレームワーク(MSPAC)は、マルチスケールの細かい機能を部分からグローバルに集約することによって策定されます。
したがって、クロスモダリティ相関は、特徴的モダリティ不変な特徴学習のための顕著な特徴を効率的に探索することができる。
論文 参考訳(メタデータ) (2020-12-12T15:39:11Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Two-Level Attention-based Fusion Learning for RGB-D Face Recognition [21.735238213921804]
RGBと深度という2つの画像モダリティを融合させてRGB-D顔認識を向上する新しいアテンションアウェアメント手法を提案する。
提案手法はまず,畳み込み特徴抽出器を用いて両モードから特徴を抽出する。
これらの特徴は、2層アテンション機構を用いて融合される。
論文 参考訳(メタデータ) (2020-02-29T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。