論文の概要: View-aware Salient Object Detection for 360{\deg} Omnidirectional Image
- arxiv url: http://arxiv.org/abs/2209.13222v1
- Date: Tue, 27 Sep 2022 07:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:32:38.947907
- Title: View-aware Salient Object Detection for 360{\deg} Omnidirectional Image
- Title(参考訳): 360{\deg>全方位画像の視認識サルエント物体検出
- Authors: Junjie Wu, Changqun Xia, Tianshu Yu, Jia Li
- Abstract要約: 等角射影(ERP)にオブジェクトレベルの画素ワイドアノテーションを付加した大規模360度ISODデータセットを構築した。
そこで本研究では,SAVT(Sample Adaptive View Transformer)モジュールを用いたビューアウェア・サリエント物体検出手法を提案する。
- 参考スコア(独自算出の注目度): 33.43250302656753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based salient object detection (ISOD) in 360{\deg} scenarios is
significant for understanding and applying panoramic information. However,
research on 360{\deg} ISOD has not been widely explored due to the lack of
large, complex, high-resolution, and well-labeled datasets. Towards this end,
we construct a large scale 360{\deg} ISOD dataset with object-level pixel-wise
annotation on equirectangular projection (ERP), which contains rich panoramic
scenes with not less than 2K resolution and is the largest dataset for
360{\deg} ISOD by far to our best knowledge. By observing the data, we find
current methods face three significant challenges in panoramic scenarios:
diverse distortion degrees, discontinuous edge effects and changeable object
scales. Inspired by humans' observing process, we propose a view-aware salient
object detection method based on a Sample Adaptive View Transformer (SAVT)
module with two sub-modules to mitigate these issues. Specifically, the
sub-module View Transformer (VT) contains three transform branches based on
different kinds of transformations to learn various features under different
views and heighten the model's feature toleration of distortion, edge effects
and object scales. Moreover, the sub-module Sample Adaptive Fusion (SAF) is to
adjust the weights of different transform branches based on various sample
features and make transformed enhanced features fuse more appropriately. The
benchmark results of 20 state-of-the-art ISOD methods reveal the constructed
dataset is very challenging. Moreover, exhaustive experiments verify the
proposed approach is practical and outperforms the state-of-the-art methods.
- Abstract(参考訳): 360{\deg}シナリオにおけるイメージベースサルエント物体検出(isod)は、パノラマ情報の理解と適用に重要である。
しかし、360{\deg} ISODの研究は、大きく、複雑で、高解像度で、十分にラベル付けされたデータセットがないために、広く研究されていない。
この目的に向けて、我々は2K以下の解像度のパノラマシーンを含むオブジェクトレベルのピクセルワイドアノテーション(ERP)を備えた大規模な360{\deg} ISODデータセットを構築し、私たちの知る限りでは最大の360{\deg} ISODデータセットである。
データの観察により、パノラマシナリオにおいて、様々な歪み度、不連続なエッジ効果、変更可能なオブジェクトスケールの3つの重要な課題に直面している。
そこで,人間の観察プロセスに触発されて,サンプル適応ビュートランスフォーマ(savt)モジュールと2つのサブモジュールを併用し,これらの問題を緩和する視点対応サルエント物体検出手法を提案する。
具体的には、サブモジュールビュー変換器(VT)は、異なる種類の変換に基づいて3つの変換分岐を含み、異なるビューの下で様々な特徴を学び、歪み、エッジ効果、オブジェクトスケールのモデルの特徴許容度を高める。
さらに、サブモジュールサンプル適応融合(SAF)は、様々なサンプル特徴に基づいて異なるトランスフォーメーションブランチの重みを調整し、変換された拡張機能をより適切にフューズする。
最先端のISODメソッド20のベンチマーク結果から、構築されたデータセットは非常に難しいことが分かる。
さらに,提案手法を徹底的に検証する実験は実用的であり,最先端手法を上回っている。
関連論文リスト
- Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection [21.96072831561483]
本稿では,モノクロ3次元物体検出のためのSupervised Shape&Scale-perceptive Deformable Attention' (S$3$-DA) モジュールを提案する。
これにより、S$3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。
KITTIとOpenデータセットの実験では、S$3$-DAが検出精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-02T12:36:38Z) - Distortion-aware Transformer in 360{\deg} Salient Object Detection [44.74647420381127]
本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
論文 参考訳(メタデータ) (2023-08-07T07:28:24Z) - MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in
Adverse Scenes [49.21187418886508]
本論文は,モノTDP(MonoTDP)と呼ばれる悪シーンにおける2つの深度を知覚するモノクル3次元検出モデルを提案する。
まず、制御不能な気象条件を扱うモデルを支援するための適応学習戦略を導入し、様々な劣化要因による劣化を著しく抑制する。
そこで本研究では, シーン深度と物体深度を同時に推定する新たな2つの深度認識モジュールを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:42:02Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Field-of-View IoU for Object Detection in 360{\deg} Images [36.72543749626039]
本研究では,FoV-IoU(FoV-IoU)と360deg画像における物体検出のための360Augmentationという2つの基本手法を提案する。
FoV-IoUは2つの視野境界ボックスの交叉結合を球面画像で計算し、トレーニング、推論、評価に使用できる。
360Augmentationは、球面イメージをランダムに回転させ、球面から平面への投影によるバイアスを解決する360degオブジェクト検出タスクに特有のデータ拡張技術である。
論文 参考訳(メタデータ) (2022-02-07T14:01:59Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。