論文の概要: PSNet: Parallel Symmetric Network for Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2210.05912v1
- Date: Wed, 12 Oct 2022 04:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:37:43.893389
- Title: PSNet: Parallel Symmetric Network for Video Salient Object Detection
- Title(参考訳): psnet:ビデオサリエント物体検出のための並列対称ネットワーク
- Authors: Runmin Cong, Weiyu Song, Jianjun Lei, Guanghui Yue, Yao Zhao, and Sam
Kwong
- Abstract要約: 我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
- 参考スコア(独自算出の注目度): 85.94443548452729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For the video salient object detection (VSOD) task, how to excavate the
information from the appearance modality and the motion modality has always
been a topic of great concern. The two-stream structure, including an RGB
appearance stream and an optical flow motion stream, has been widely used as a
typical pipeline for VSOD tasks, but the existing methods usually only use
motion features to unidirectionally guide appearance features or adaptively but
blindly fuse two modality features. However, these methods underperform in
diverse scenarios due to the uncomprehensive and unspecific learning schemes.
In this paper, following a more secure modeling philosophy, we deeply
investigate the importance of appearance modality and motion modality in a more
comprehensive way and propose a VSOD network with up and down parallel
symmetry, named PSNet. Two parallel branches with different dominant modalities
are set to achieve complete video saliency decoding with the cooperation of the
Gather Diffusion Reinforcement (GDR) module and Cross-modality Refinement and
Complement (CRC) module. Finally, we use the Importance Perception Fusion (IPF)
module to fuse the features from two parallel branches according to their
different importance in different scenarios. Experiments on four dataset
benchmarks demonstrate that our method achieves desirable and competitive
performance.
- Abstract(参考訳): ビデオサルエントオブジェクト検出(VSOD)タスクでは、外見のモダリティと運動のモダリティからどのように情報を抽出するかが常に大きな関心事となっている。
RGBの外観ストリームと光フローモーションストリームを含む2つのストリーム構造は、VSODタスクの典型的なパイプラインとして広く使われているが、既存の手法では、動作特徴を一方向で導くか、適応的にも盲目的に2つのモード特徴を融合させるだけである。
しかし,これらの手法は,非包括的かつ非特異な学習手法により,多様なシナリオで性能が低下する。
本稿では,よりセキュアなモデリング哲学に従い,より包括的に外観モダリティと動きモダリティの重要性を深く調査し,psnetと呼ばれる上下平行対称性を持つvsodネットワークを提案する。
支配的モダリティの異なる2つの並列ブランチを設定し、greken diffusion reinforcement(gdr)モジュールとcross-modalityfine and complement(crc)モジュールの協調により、完全なビデオサリエンシー復号を実現する。
最後に、Importance Perception Fusion (IPF)モジュールを使用して、異なるシナリオにおける異なる重要性に応じて、2つの並列ブランチから機能を融合します。
4つのベンチマーク実験により,本手法が望ましい,競争力のある性能を達成することを示す。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - M2RNet: Multi-modal and Multi-scale Refined Network for RGB-D Salient
Object Detection [1.002712867721496]
RGB-Dに基づく手法は、多モード特徴融合の不整合性とマルチスケール特徴集合の不整合に悩まされることが多い。
マルチモーダル・マルチスケール改良ネットワーク(M2RNet)を提案する。
このネットワークには3つの重要なコンポーネントが紹介されている。
論文 参考訳(メタデータ) (2021-09-16T12:15:40Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Deep feature selection-and-fusion for RGB-D semantic segmentation [8.831857715361624]
本研究は,fsfnet (unified and efficient feature selection and-fusion network) を提案する。
FSFNetは、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残留融合モジュールを含む。
最新の手法と比較すると,提案モデルが2つの公開データセットで競合性能を発揮できることを実験的に評価した。
論文 参考訳(メタデータ) (2021-05-10T04:02:32Z) - Dual Semantic Fusion Network for Video Object Detection [35.175552056938635]
外部ガイダンスのない統合融合フレームワークにおいて,フレームレベルとインスタンスレベルの両方のセマンティクスをフル活用するためのデュアルセマンティクス・フュージョン・ネットワーク(DSFNet)を提案する。
提案したDSFNetは、多粒度融合によりより堅牢な特徴を生成でき、外部ガイダンスの不安定性の影響を避けることができる。
論文 参考訳(メタデータ) (2020-09-16T06:49:17Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。