論文の概要: GLPanoDepth: Global-to-Local Panoramic Depth Estimation
- arxiv url: http://arxiv.org/abs/2202.02796v1
- Date: Sun, 6 Feb 2022 15:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 07:52:22.232555
- Title: GLPanoDepth: Global-to-Local Panoramic Depth Estimation
- Title(参考訳): GLPanoDepth:グローバル・ローカル・パノラマ奥行き推定
- Authors: Jiayang Bai, Shuichang Lai, Haoyu Qin, Jie Guo and Yanwen Guo
- Abstract要約: 単眼全方位画像からシーンの深度を推定する学習手法を提案する。
球面信号に対するグローバルなコヒーレントな予測が可能であることを示す。
このグローバル・ローカル戦略により、パノラマにおける有用なグローバル・ローカル機能を完全に活用し、パノラマ深度推定における最先端の性能を達成することができる。
- 参考スコア(独自算出の注目度): 18.06592473599777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a learning-based method for predicting dense depth
values of a scene from a monocular omnidirectional image. An omnidirectional
image has a full field-of-view, providing much more complete descriptions of
the scene than perspective images. However, fully-convolutional networks that
most current solutions rely on fail to capture rich global contexts from the
panorama. To address this issue and also the distortion of equirectangular
projection in the panorama, we propose Cubemap Vision Transformers (CViT), a
new transformer-based architecture that can model long-range dependencies and
extract distortion-free global features from the panorama. We show that cubemap
vision transformers have a global receptive field at every stage and can
provide globally coherent predictions for spherical signals. To preserve
important local features, we further design a convolution-based branch in our
pipeline (dubbed GLPanoDepth) and fuse global features from cubemap vision
transformers at multiple scales. This global-to-local strategy allows us to
fully exploit useful global and local features in the panorama, achieving
state-of-the-art performance in panoramic depth estimation.
- Abstract(参考訳): 本稿では,単眼全方位画像からシーンの濃密な深さ値を予測する学習ベース手法を提案する。
全方位画像は視野の完全な視野を持ち、視点画像よりもシーンの完全な記述を提供する。
しかし、現在のソリューションのほとんどが依存する完全畳み込みネットワークは、パノラマからリッチなグローバルコンテキストを捉えることができない。
この問題とパノラマにおける正方形射影の歪みに対処するために,長距離依存をモデル化し,パノラマから歪みのないグローバルな特徴を抽出できる新しいトランスフォーマアーキテクチャであるCubemap Vision Transformers (CViT)を提案する。
キューブマップの視覚変換器は全段に大域的な受容野を持ち,球面信号に対してグローバルにコヒーレントな予測を行うことができる。
重要なローカル機能を維持するため、パイプライン内の畳み込みベースのブランチ(glpanodepth)をさらに設計し、cubemap vision transformersからグローバル機能を複数のスケールで融合します。
このグローバル・ローカル戦略により、パノラマにおける有用なグローバル・ローカル機能を完全に活用し、パノラマ深度推定における最先端の性能を達成することができる。
関連論文リスト
- SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [54.13459226728249]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - Global Latent Neural Rendering [4.826483125482717]
一般化可能な新しいビュー手法の最近のトレンドは、単一のカメラ線に作用するレンダリング演算子を学習することである。
ここでは,全カメラ光線に作用するグローバルレンダリング演算子を共同で学習することを提案する。
我々は,低解像度の潜時空間でグローバルにレンダリング操作を行う効率的な畳み込みアーキテクチャである畳み込みグローバル潜時レンダラー(ConvGLR)を紹介した。
論文 参考訳(メタデータ) (2023-12-13T18:14:13Z) - Local-to-Global Panorama Inpainting for Locale-Aware Indoor Lighting
Prediction [28.180205012351802]
単一視点の画像からパノラマ的な室内照明を予測することは、コンピュータビジョンとグラフィックスの基本的な問題である。
最近の手法は主に、ワープされたパノラマの不足した内容を満たすために畳み込みニューラルネットワーク(CNN)に依存している。
大規模パノラマ塗布における局所的・言語的戦略を提案する。
論文 参考訳(メタデータ) (2023-03-18T06:18:49Z) - ${S}^{2}$Net: Accurate Panorama Depth Estimation on Spherical Surface [4.649656275858966]
単球面上の単分子パノラマ深度推定のためのエンドツーエンドのディープネットワークを提案する。
具体的には、等方形画像から抽出した特徴写像を一様分散格子でサンプリングした単位球面に投影する。
本研究では,機能マップをスキップ接続から解き放ち,グローバルコンテキストの獲得能力を高めるために,グローバルなクロスアテンションベースの融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-01-14T07:39:15Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation [35.698249161263966]
畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深さ推定手法は、パノラマ歪みの除去に重点を置いている。
本稿では,パノラマ画像の深さを推定するパノラマ変換器を提案する。
特に、球面接領域のパッチをトークンに分割し、パノラマ歪みの負の効果を低減する。
論文 参考訳(メタデータ) (2022-03-17T12:19:43Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z) - OmniSLAM: Omnidirectional Localization and Dense Mapping for
Wide-baseline Multi-camera Systems [88.41004332322788]
超広視野魚眼カメラ(FOV)を用いた広視野多視点ステレオ構成のための全方向位置決めと高密度マッピングシステムを提案する。
より実用的で正確な再構築のために、全方向深度推定のための改良された軽量のディープニューラルネットワークを導入する。
我々は全方位深度推定をビジュアル・オドメトリー(VO)に統合し,大域的整合性のためのループ閉鎖モジュールを付加する。
論文 参考訳(メタデータ) (2020-03-18T05:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。