論文の概要: Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image
- arxiv url: http://arxiv.org/abs/2212.12378v1
- Date: Fri, 23 Dec 2022 14:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:53:27.358165
- Title: Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image
- Title(参考訳): 360{\deg}全方位画像における有向物体検出のためのマルチプロジェクションフュージョン・リファインメントネットワーク
- Authors: Runmin Cong, Ke Huang, Jianjun Lei, Yao Zhao, Qingming Huang, and Sam
Kwong
- Abstract要約: 我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 141.10227079090419
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Salient object detection (SOD) aims to determine the most visually attractive
objects in an image. With the development of virtual reality technology,
360{\deg} omnidirectional image has been widely used, but the SOD task in
360{\deg} omnidirectional image is seldom studied due to its severe distortions
and complex scenes. In this paper, we propose a Multi-Projection Fusion and
Refinement Network (MPFR-Net) to detect the salient objects in 360{\deg}
omnidirectional image. Different from the existing methods, the equirectangular
projection image and four corresponding cube-unfolding images are embedded into
the network simultaneously as inputs, where the cube-unfolding images not only
provide supplementary information for equirectangular projection image, but
also ensure the object integrity of the cube-map projection. In order to make
full use of these two projection modes, a Dynamic Weighting Fusion (DWF) module
is designed to adaptively integrate the features of different projections in a
complementary and dynamic manner from the perspective of inter and intra
features. Furthermore, in order to fully explore the way of interaction between
encoder and decoder features, a Filtration and Refinement (FR) module is
designed to suppress the redundant information between the feature itself and
the feature. Experimental results on two omnidirectional datasets demonstrate
that the proposed approach outperforms the state-of-the-art methods both
qualitatively and quantitatively.
- Abstract(参考訳): 局所物体検出(SOD)は、画像中の最も視覚的に魅力的な物体を決定することを目的としている。
仮想現実技術の発展により、360{\deg}の全方位画像が広く使われるようになったが、360{\deg}全方位画像におけるsodタスクは、その厳しい歪みと複雑なシーンのためにほとんど研究されていない。
本稿では,360{\deg}全方位画像中の有向物体を検出するマルチプロジェクション・フュージョン・リファインメント・ネットワーク(MPFR-Net)を提案する。
既存の方法と異なり、等価投影画像と対応する4つの立方体展開画像を同時に入力としてネットワークに埋め込み、立方体展開画像が等角投影画像の補足情報を提供するだけでなく、立方体地図投影のオブジェクト整合性を確保する。
これら2つのプロジェクションモードをフル活用するために、動的重み付け融合(DWF)モジュールは、異なるプロジェクションの特徴を相互および内部の特徴の観点から相補的および動的に適応的に統合するように設計されている。
さらに、エンコーダとデコーダの機能間のインタラクションの方法を完全に探求するために、Filtration and Refinement (FR)モジュールは、機能自体と機能の間の冗長な情報を抑制するように設計されている。
2つの全方向データセットにおける実験結果から,提案手法が定性的および定量的に最先端手法よりも優れていることが示された。
関連論文リスト
- Context and Geometry Aware Voxel Transformer for Semantic Scene Completion [7.147020285382786]
視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。
既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。
セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T14:16:30Z) - FusionViT: Hierarchical 3D Object Detection via LiDAR-Camera Vision
Transformer Fusion [8.168523242105763]
本稿では,新しい視覚変換器を用いた3次元物体検出モデルFusionViTを紹介する。
我々のFusionViTモデルは最先端の性能を達成でき、既存のベースライン法より優れています。
論文 参考訳(メタデータ) (2023-11-07T00:12:01Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。