論文の概要: Distortion-aware Transformer in 360{\deg} Salient Object Detection
- arxiv url: http://arxiv.org/abs/2308.03359v1
- Date: Mon, 7 Aug 2023 07:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 14:41:18.663222
- Title: Distortion-aware Transformer in 360{\deg} Salient Object Detection
- Title(参考訳): 360{\deg}サルエント物体検出における歪み検出トランス
- Authors: Yinjie Zhao, Lichen Zhao, Qian Yu, Jing Zhang, Lu Sheng, Dong Xu
- Abstract要約: 本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
360degデータの特徴を利用するために,学習可能な関係行列を提案する。
我々のモデルは既存の2D SOD(salient object detection)法と360 SOD法より優れている。
- 参考スコア(独自算出の注目度): 44.74647420381127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of VR and AR, 360{\deg} data attracts increasing attention
from the computer vision and multimedia communities. Typically, 360{\deg} data
is projected into 2D ERP (equirectangular projection) images for feature
extraction. However, existing methods cannot handle the distortions that result
from the projection, hindering the development of 360-data-based tasks.
Therefore, in this paper, we propose a Transformer-based model called DATFormer
to address the distortion problem. We tackle this issue from two perspectives.
Firstly, we introduce two distortion-adaptive modules. The first is a
Distortion Mapping Module, which guides the model to pre-adapt to distorted
features globally. The second module is a Distortion-Adaptive Attention Block
that reduces local distortions on multi-scale features. Secondly, to exploit
the unique characteristics of 360{\deg} data, we present a learnable relation
matrix and use it as part of the positional embedding to further improve
performance. Extensive experiments are conducted on three public datasets, and
the results show that our model outperforms existing 2D SOD (salient object
detection) and 360 SOD methods.
- Abstract(参考訳): vrとarの出現により、360{\deg}データはコンピュータビジョンとマルチメディアコミュニティから注目を集めている。
通常、360{\deg} データは特徴抽出のために2次元ERP (equirectular projection) 画像に投影される。
しかし、既存の手法では投影による歪みを処理できず、360データベースのタスクの開発を妨げている。
そこで本稿では,歪み問題に対処するトランスフォーマーモデルDATFormerを提案する。
我々は2つの視点からこの問題に取り組む。
まず,歪み適応モジュールを2つ導入する。
ひとつはDistortion Mapping Moduleで、このモジュールはモデルを世界中の歪んだ機能に事前適応させる。
2つ目のモジュールはDistortion-Adaptive Attention Blockで、マルチスケール機能の局所歪みを低減する。
次に,360{\deg}データの特徴を生かすために,学習可能な関係行列を示し,位置埋め込みの一部として使用することで,さらなる性能向上を図る。
3つの公開データセットについて広範な実験を行い,本モデルが既存の2d sod (salient object detection) および360 sod法よりも優れていることを示した。
関連論文リスト
- R3D-AD: Reconstruction via Diffusion for 3D Anomaly Detection [12.207437451118036]
3次元異常検出は、精密製造における局所固有の欠陥のモニタリングにおいて重要な役割を担っている。
埋め込みベースおよび再構築ベースのアプローチは、最も人気があり、成功した方法の一つである。
本稿では, 高精度な3次元異常検出のための拡散モデルにより, 異常点雲を再構成するR3D-ADを提案する。
論文 参考訳(メタデータ) (2024-07-15T16:10:58Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - OPDN: Omnidirectional Position-aware Deformable Network for
Omnidirectional Image Super-Resolution [18.138867445188293]
我々は360度全方位画像超解像のための2段階のフレームワークを提案する。
提案手法は,360deg全方位画像超解像のNTIRE 2023チャレンジにおいて,優れた性能を実現している。
論文 参考訳(メタデータ) (2023-04-26T11:47:40Z) - View-aware Salient Object Detection for 360{\deg} Omnidirectional Image [33.43250302656753]
等角射影(ERP)にオブジェクトレベルの画素ワイドアノテーションを付加した大規模360度ISODデータセットを構築した。
そこで本研究では,SAVT(Sample Adaptive View Transformer)モジュールを用いたビューアウェア・サリエント物体検出手法を提案する。
論文 参考訳(メタデータ) (2022-09-27T07:44:08Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Distortion-aware Monocular Depth Estimation for Omnidirectional Images [26.027353545874522]
室内パノラマにおけるこの問題に対処するために,DAMO(Distortion-Aware Monocular Omnidirectional)深度推定ネットワークを提案する。
まず、全方位画像からキャリブレーションされた意味的特徴を抽出する歪み認識モジュールを提案する。
第二に、球面から投影される領域の不均一分布を扱うために、目的関数に対するプラグアンドプレイ球面対応重み行列を導入する。
論文 参考訳(メタデータ) (2020-10-18T08:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。