論文の概要: EGformer: Equirectangular Geometry-biased Transformer for 360 Depth
Estimation
- arxiv url: http://arxiv.org/abs/2304.07803v2
- Date: Thu, 7 Sep 2023 05:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 17:28:00.504851
- Title: EGformer: Equirectangular Geometry-biased Transformer for 360 Depth
Estimation
- Title(参考訳): EGformer:360度深度推定のための等角形状バイアス変換器
- Authors: Ilwi Yun, Chanyong Shin, Hyunku Lee, Hyuk-Jae Lee and Chae Eun Rhee
- Abstract要約: 歪んだ180×360視野を考えると、等方形(すなわち360)画像(EIs)の深さを推定することは困難である。
EGformer と呼ばれる等方形状バイアス変換器を提案する。
- 参考スコア(独自算出の注目度): 20.42460078279734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the depths of equirectangular (i.e., 360) images (EIs) is
challenging given the distorted 180 x 360 field-of-view, which is hard to be
addressed via convolutional neural network (CNN). Although a transformer with
global attention achieves significant improvements over CNN for EI depth
estimation task, it is computationally inefficient, which raises the need for
transformer with local attention. However, to apply local attention
successfully for EIs, a specific strategy, which addresses distorted
equirectangular geometry and limited receptive field simultaneously, is
required. Prior works have only cared either of them, resulting in
unsatisfactory depths occasionally. In this paper, we propose an
equirectangular geometry-biased transformer termed EGformer. While limiting the
computational cost and the number of network parameters, EGformer enables the
extraction of the equirectangular geometry-aware local attention with a large
receptive field. To achieve this, we actively utilize the equirectangular
geometry as the bias for the local attention instead of struggling to reduce
the distortion of EIs. As compared to the most recent EI depth estimation
studies, the proposed approach yields the best depth outcomes overall with the
lowest computational cost and the fewest parameters, demonstrating the
effectiveness of the proposed methods.
- Abstract(参考訳): 等角(すなわち360度)画像(eis)の深さの推定は、畳み込みニューラルネットワーク(cnn)で扱うのが難しい歪んだ180x360の視野を考えると困難である。
グローバルアテンションを持つトランスフォーマーは、EI深度推定タスクにおいてCNNよりも大幅に改善されるが、計算的に非効率であり、局所アテンションを持つトランスフォーマーの必要性が高まる。
しかし、EIsに対して局所的な注意をうまく適用するには、歪んだ正方形幾何と限定受容場を同時に扱う特定の戦略が必要である。
以前の作品ではどちらの作品も気付いていなかったため、時には不満足な深さに陥ることもあった。
本稿では,EGformer と呼ばれる等角形状バイアス変換器を提案する。
計算コストとネットワークパラメータの数を制限しながら、egformerは、大きな受容場を持つ等角幾何対応局所的注意の抽出を可能にする。
そこで我々は,EIsの歪みを低減するのに苦労するのではなく,局所的な注意のバイアスとして等角形状を積極的に活用する。
直近のEI深度推定法と比較すると,提案手法は計算コストが低く,パラメータが最少であり,提案手法の有効性が示された。
関連論文リスト
- OrientedFormer: An End-to-End Transformer-Based Oriented Object Detector in Remote Sensing Images [26.37802649901314]
リモートセンシング画像におけるオブジェクト指向物体検出は、複数方向のオブジェクトが分散しているため、難しい課題である。
これらの問題に対処する3つの専用モジュールからなるエンドツーエンドのトランスフォーマベース指向オブジェクト検出器を提案する。
従来のエンドツーエンド検出器と比較して、OrientedFormerはDIOR-RとDOTA-v1.0でそれぞれ1.16および1.21 AP$_50$を獲得し、トレーニングエポックを3$times$から1$times$に下げる。
論文 参考訳(メタデータ) (2024-09-29T10:36:33Z) - TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - ConDaFormer: Disassembled Transformer with Local Structure Enhancement
for 3D Point Cloud Understanding [105.98609765389895]
トランスフォーマーは、最近3Dポイントクラウド理解のために研究されている。
0.1万を超える多数のポイントは、ポイントクラウドデータに対してグローバルな自己注意を可能にする。
本稿では,ConDaFormerという新しい変圧器ブロックを開発する。
論文 参考訳(メタデータ) (2023-12-18T11:19:45Z) - OcTr: Octree-based Transformer for 3D Object Detection [30.335788698814444]
LiDARベースの3Dオブジェクト検出の重要な課題は、大規模な3Dシーンから十分な特徴をキャプチャすることだ。
我々はこの問題に対処するためにOcTrというOcreeベースのトランスフォーマーを提案する。
本研究では,前景の知覚性を高めるために,セマンティック・アウェアな位置埋め込みとアテンションマスクを組み合わせたハイブリッドな位置埋め込みを提案する。
論文 参考訳(メタデータ) (2023-03-22T15:01:20Z) - URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation [24.03121823263355]
本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
論文 参考訳(メタデータ) (2023-02-16T08:53:08Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Adaptive Surface Normal Constraint for Depth Estimation [102.7466374038784]
アダプティブサーフェスノーマル(ASN)制約と呼ばれるシンプルで効果的な手法を導入し、深さ推定と幾何学的一貫性を相関させます。
本手法は3次元形状を忠実に再構成でき,境界,鋭角,雑音などの局所形状変化に頑健である。
論文 参考訳(メタデータ) (2021-03-29T10:36:25Z) - PUGeo-Net: A Geometry-centric Network for 3D Point Cloud Upsampling [103.09504572409449]
PUGeo-Netと呼ばれる新しいディープニューラルネットワークを用いた一様高密度点雲を生成する手法を提案する。
その幾何学中心の性質のおかげで、PUGeo-Netはシャープな特徴を持つCADモデルとリッチな幾何学的詳細を持つスキャンされたモデルの両方でうまく機能する。
論文 参考訳(メタデータ) (2020-02-24T14:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。