論文の概要: A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video
Salient Object Detection
- arxiv url: http://arxiv.org/abs/2310.09016v1
- Date: Fri, 13 Oct 2023 11:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:22:29.595046
- Title: A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video
Salient Object Detection
- Title(参考訳): パノラマビデオ塩物検出のための時空間二重モード混合流れネットワーク
- Authors: Xiaolei Chen, Pengcheng Zhang, Zelong Du, Ishfaq Ahmad
- Abstract要約: 本研究では,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
多くの主観的および客観的な実験結果から,提案手法が最先端(SOTA)法よりも優れた検出精度を示すことが確認された。
提案手法の総合性能は, モデル推論, テスト時間, 複雑性, 一般化性能に要求されるメモリの点で優れている。
- 参考スコア(独自算出の注目度): 5.207048071888257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection (SOD) in panoramic video is still in the initial
exploration stage. The indirect application of 2D video SOD method to the
detection of salient objects in panoramic video has many unmet challenges, such
as low detection accuracy, high model complexity, and poor generalization
performance. To overcome these hurdles, we design an Inter-Layer Attention
(ILA) module, an Inter-Layer weight (ILW) module, and a Bi-Modal Attention
(BMA) module. Based on these modules, we propose a Spatial-Temporal Dual-Mode
Mixed Flow Network (STDMMF-Net) that exploits the spatial flow of panoramic
video and the corresponding optical flow for SOD. First, the ILA module
calculates the attention between adjacent level features of consecutive frames
of panoramic video to improve the accuracy of extracting salient object
features from the spatial flow. Then, the ILW module quantifies the salient
object information contained in the features of each level to improve the
fusion efficiency of the features of each level in the mixed flow. Finally, the
BMA module improves the detection accuracy of STDMMF-Net. A large number of
subjective and objective experimental results testify that the proposed method
demonstrates better detection accuracy than the state-of-the-art (SOTA)
methods. Moreover, the comprehensive performance of the proposed method is
better in terms of memory required for model inference, testing time,
complexity, and generalization performance.
- Abstract(参考訳): パノラマビデオにおける正体検出(SOD)は、まだ初期の探査段階にある。
2次元ビデオSOD法のパノラマビデオにおける有能な物体の検出への間接的応用には、検出精度の低下、モデル複雑性の増大、一般化性能の低下など、多くの未解決課題がある。
これらのハードルを克服するために, 層間アテンション(ila)モジュール, 層間ウエイト(ilw)モジュール, バイモーダルアテンション(bma)モジュールを設計した。
これらのモジュールをベースとして,パノラマ映像の空間的流れとそれに対応する光学的流れを利用する時空間二重モード混合流れネットワーク(STDMMF-Net)を提案する。
第1に、iraモジュールは、パノラマ映像の連続フレームの隣接レベル特徴間の注目度を算出し、空間フローから突出した物体特徴を抽出する精度を向上させる。
そして、ILWモジュールは、各レベルの特徴に含まれる健全なオブジェクト情報を定量化し、混合流れにおける各レベルの特徴の融合効率を向上させる。
最後に、BMAモジュールはSTDMMF-Netの検出精度を向上させる。
多くの主観的および客観的な実験結果から,提案手法は最先端(SOTA)法よりも優れた検出精度を示すことが示された。
さらに,提案手法の総合的な性能は,モデル推論,テスト時間,複雑性,一般化性能に必要なメモリの点で優れている。
関連論文リスト
- MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。
MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。
提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文 参考訳(メタデータ) (2024-08-01T10:16:58Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。