論文の概要: PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation
- arxiv url: http://arxiv.org/abs/2203.09283v1
- Date: Thu, 17 Mar 2022 12:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:27:06.388770
- Title: PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation
- Title(参考訳): パノフォーマー:室内360{\deg}深度推定用パノラマ変圧器
- Authors: Zhijie Shen, Chunyu Lin, Kang Liao, Lang Nie, Zishuo Zheng, and Yao
Zhao
- Abstract要約: 畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深さ推定手法は、パノラマ歪みの除去に重点を置いている。
本稿では,パノラマ画像の深さを推定するパノラマ変換器を提案する。
特に、球面接領域のパッチをトークンに分割し、パノラマ歪みの負の効果を低減する。
- 参考スコア(独自算出の注目度): 35.698249161263966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing panoramic depth estimation methods based on convolutional neural
networks (CNNs) focus on removing panoramic distortions, failing to perceive
panoramic structures efficiently due to the fixed receptive field in CNNs. This
paper proposes the panorama transformer (named PanoFormer) to estimate the
depth in panorama images, with tangent patches from spherical domain, learnable
token flows, and panorama specific metrics. In particular, we divide patches on
the spherical tangent domain into tokens to reduce the negative effect of
panoramic distortions. Since the geometric structures are essential for depth
estimation, a self-attention module is redesigned with an additional learnable
token flow. In addition, considering the characteristic of the spherical
domain, we present two panorama-specific metrics to comprehensively evaluate
the panoramic depth estimation models' performance. Extensive experiments
demonstrate that our approach significantly outperforms the state-of-the-art
(SOTA) methods. Furthermore, the proposed method can be effectively extended to
solve semantic panorama segmentation, a similar pixel2pixel task. Code will be
available.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深度推定手法は、パノラマ歪みの除去に重点を置いており、CNNの固定受容場によりパノラマ構造を効率的に知覚できない。
本稿では,球面領域からの接パッチ,学習可能なトークンフロー,パノラマ特定指標を用いて,パノラマ画像の深さを推定するパノラマトランス(panoformer)を提案する。
特に、球面接領域のパッチをトークンに分割することで、パノラマ歪みの負の効果を減少させる。
幾何構造は深さ推定に必須であるため、セルフアテンションモジュールは追加の学習可能なトークンフローで再設計される。
さらに, 球面領域の特性を考慮し, パノラマ特異的な2つの指標を用いてパノラマ深度推定モデルの性能を総合的に評価する。
大規模な実験により,本手法は最先端技術(SOTA)法を著しく上回っていることが示された。
さらに,提案手法を有効に拡張して,類似のピクセル2ピクセルタスクであるセマンティックパノラマセグメンテーションを解決できる。
コードは利用可能だ。
関連論文リスト
- Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - ${S}^{2}$Net: Accurate Panorama Depth Estimation on Spherical Surface [4.649656275858966]
単球面上の単分子パノラマ深度推定のためのエンドツーエンドのディープネットワークを提案する。
具体的には、等方形画像から抽出した特徴写像を一様分散格子でサンプリングした単位球面に投影する。
本研究では,機能マップをスキップ接続から解き放ち,グローバルコンテキストの獲得能力を高めるために,グローバルなクロスアテンションベースの融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-14T07:39:15Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - SphereDepth: Panorama Depth Estimation from Spherical Domain [17.98608948955211]
本稿では,新しいパノラマ深度推定法であるSphereDepthを提案する。
プロジェクション前処理なしで球面メッシュ上の深さを直接予測する。
パノラマ深度推定の最先端手法と同等の結果が得られる。
論文 参考訳(メタデータ) (2022-08-29T16:50:19Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - ACDNet: Adaptively Combined Dilated Convolution for Monocular Panorama
Depth Estimation [9.670696363730329]
本研究では,単眼パノラマ画像の深度マップを予測するために,適応的に組み合わせた拡張畳み込みに基づくACDNetを提案する。
仮想および実世界の3つのデータセットで深度推定実験を行い,提案したACDNetが現在最先端(SOTA)手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-12-29T08:04:19Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Light Field Reconstruction Using Convolutional Network on EPI and
Extended Applications [78.63280020581662]
スパースビューからの光場再構成のための新しい畳み込みニューラルネットワーク(CNN)ベースのフレームワークを開発した。
最先端のアルゴリズムと比較して,提案フレームワークの高性能と堅牢性を実証する。
論文 参考訳(メタデータ) (2021-03-24T08:16:32Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。