論文の概要: Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection
- arxiv url: http://arxiv.org/abs/2412.01556v1
- Date: Mon, 02 Dec 2024 14:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:31.169019
- Title: Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection
- Title(参考訳): Divide-and-Conquer:RGB-T能動物体検出のための収束三成分流ネットワーク
- Authors: Hao Tang, Zechao Li, Dong Zhang, Shengfeng He, Jinhui Tang,
- Abstract要約: RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
- 参考スコア(独自算出の注目度): 70.84835546732738
- License:
- Abstract: RGB-Thermal Salient Object Detection aims to pinpoint prominent objects within aligned pairs of visible and thermal infrared images. Traditional encoder-decoder architectures, while designed for cross-modality feature interactions, may not have adequately considered the robustness against noise originating from defective modalities. Inspired by hierarchical human visual systems, we propose the ConTriNet, a robust Confluent Triple-Flow Network employing a Divide-and-Conquer strategy. Specifically, ConTriNet comprises three flows: two modality-specific flows explore cues from RGB and Thermal modalities, and a third modality-complementary flow integrates cues from both modalities. ConTriNet presents several notable advantages. It incorporates a Modality-induced Feature Modulator in the modality-shared union encoder to minimize inter-modality discrepancies and mitigate the impact of defective samples. Additionally, a foundational Residual Atrous Spatial Pyramid Module in the separated flows enlarges the receptive field, allowing for the capture of multi-scale contextual information. Furthermore, a Modality-aware Dynamic Aggregation Module in the modality-complementary flow dynamically aggregates saliency-related cues from both modality-specific flows. Leveraging the proposed parallel triple-flow framework, we further refine saliency maps derived from different flows through a flow-cooperative fusion strategy, yielding a high-quality, full-resolution saliency map for the final prediction. To evaluate the robustness and stability of our approach, we collect a comprehensive RGB-T SOD benchmark, VT-IMAG, covering various real-world challenging scenarios. Extensive experiments on public benchmarks and our VT-IMAG dataset demonstrate that ConTriNet consistently outperforms state-of-the-art competitors in both common and challenging scenarios.
- Abstract(参考訳): RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダとデコーダのアーキテクチャは、相互モダリティの特徴的相互作用のために設計されているが、欠陥モーダル性から生じる雑音に対するロバストさを十分に考慮していなかったかもしれない。
階層型視覚システムにインスパイアされたConTriNetは,Divide-and-Conquer戦略を用いた堅牢なConfluent Triple-Flow Networkである。
具体的には、ConTriNetは3つの流れからなる: 2つのモード比フローがRGBからキューを探索し、第3のモード比フローが両方のモードからキューを統合する。
ConTriNetにはいくつかの重要な利点がある。
モダリティによって誘導される特徴変調器をモダリティ共有ユニオンエンコーダに組み込んで、モダリティ間の不一致を最小限に抑え、欠陥サンプルの影響を軽減する。
さらに、分離された流れにおける基本的残留アラス空間ピラミッドモジュールは、受容場を拡大し、マルチスケールのコンテキスト情報の取得を可能にする。
さらに、モーダリティ補流中のモーダリティ対応動的凝集モジュールは、両方のモーダリティ特化フローからサラリティ関連キューを動的に集約する。
提案手法を応用し,フロー・コラボレーティブ・フュージョン・ストラテジーを通じて異なる流れから導出される塩分濃度マップを改良し,最終予測のための高品質で完全解像度の塩分濃度マップを得る。
提案手法のロバスト性と安定性を評価するため,実世界の課題を網羅した総合的なRGB-T SODベンチマークであるVT-IMAGを収集した。
公開ベンチマークと私たちのVT-IMAGデータセットに関する大規模な実験により、ConTriNetは、一般的なシナリオと難しいシナリオの両方において、最先端の競合より一貫して優れています。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。
RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。
また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - Unified Single-Stage Transformer Network for Efficient RGB-T Tracking [47.88113335927079]
我々は、上記3つのステージを単一のViT(Vision Transformer)バックボーンに統合するシングルステージのRGB-Tトラッキングネットワーク、すなわちUSTrackを提案する。
この構造により、ネットワークは、モダリティの相互相互作用の下でテンプレートと検索領域の融合特徴を抽出することができる。
3つのRGB-T追跡ベンチマーク実験により,提案手法は高速な推論速度84.2FPSを維持しつつ,新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-08-26T05:09:57Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Modal-Adaptive Gated Recoding Network for RGB-D Salient Object Detection [2.9153096940947796]
本稿では,2つのモードの情報の有効性を評価するために,GRNet(GRNet)を提案する。
知覚エンコーダを用いてマルチレベル単一モード特徴を抽出する。
無効な情報を抑制し、有効なモーダル特徴を復号ミキサとハイブリッド分岐復号器に転送するために、モーダル適応ゲートユニットを提案する。
論文 参考訳(メタデータ) (2021-08-13T15:08:21Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。