論文の概要: PanoSwin: a Pano-style Swin Transformer for Panorama Understanding
- arxiv url: http://arxiv.org/abs/2308.14726v1
- Date: Mon, 28 Aug 2023 17:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 12:54:40.910160
- Title: PanoSwin: a Pano-style Swin Transformer for Panorama Understanding
- Title(参考訳): PanoSwin:パノラマ理解のためのパノラマ式スイムトランス
- Authors: Zhixin Ling, Zhen Xing, Xiangdong Zhou, Manliang Cao, Guichun Zhou
- Abstract要約: 等方射影(ERP)は境界の不連続性と空間歪みを含む。
我々はパノラマ表現をERPで学習するためにPanoSwinを提案する。
各種パノラマ作業における最先端技術に対する実験を行う。
- 参考スコア(独自算出の注目度): 15.115868803355081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In panorama understanding, the widely used equirectangular projection (ERP)
entails boundary discontinuity and spatial distortion. It severely deteriorates
the conventional CNNs and vision Transformers on panoramas. In this paper, we
propose a simple yet effective architecture named PanoSwin to learn panorama
representations with ERP. To deal with the challenges brought by
equirectangular projection, we explore a pano-style shift windowing scheme and
novel pitch attention to address the boundary discontinuity and the spatial
distortion, respectively. Besides, based on spherical distance and Cartesian
coordinates, we adapt absolute positional embeddings and relative positional
biases for panoramas to enhance panoramic geometry information. Realizing that
planar image understanding might share some common knowledge with panorama
understanding, we devise a novel two-stage learning framework to facilitate
knowledge transfer from the planar images to panoramas. We conduct experiments
against the state-of-the-art on various panoramic tasks, i.e., panoramic object
detection, panoramic classification, and panoramic layout estimation. The
experimental results demonstrate the effectiveness of PanoSwin in panorama
understanding.
- Abstract(参考訳): パノラマ理解において、広く使われる等角射影(erp)は境界の不連続性と空間歪を伴う。
パノラマの従来のcnnや視覚トランスフォーマーをひどく劣化させる。
本稿では,パノラマ表現をERPで学習する上で,PanoSwinというシンプルなアーキテクチャを提案する。
等角射影による課題に対処するため, 境界の不連続性と空間歪みに対処するために, パノスタイルのシフトウインドウスキームと新しいピッチアテンションを探索する。
さらに,球面距離と直交座標に基づいて,パノラマの絶対位置埋め込みと相対位置バイアスを適用し,パノラマ幾何学情報を強化する。
平面画像理解がパノラマ理解と共通する知識を共有していることを認識し,平面画像からパノラマへの知識伝達を容易にする新しい2段階学習フレームワークを考案する。
我々は,パノラマオブジェクト検出,パノラマ分類,パノラマレイアウト推定など,様々なパノラマタスクに対する最先端技術に対する実験を行った。
実験結果はパノラマ理解におけるパノスウィンの有効性を示した。
関連論文リスト
- PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - Panoramic Image-to-Image Translation [37.9486466936501]
パノラマ画像変換(Pano-I2I)の課題に初めて取り組む。
この課題は、パノラマ画像の幾何学的歪みと、天候や時間といった様々な条件のパノラマ画像データセットが欠如しているために困難である。
ピンホール画像から参照するグローバルなスタイルを一貫して翻訳しながらパノラマ画像の構造を保存するパノラマ歪み認識型I2Iモデルを提案する。
論文 参考訳(メタデータ) (2023-04-11T04:08:58Z) - Local-to-Global Panorama Inpainting for Locale-Aware Indoor Lighting
Prediction [28.180205012351802]
単一視点の画像からパノラマ的な室内照明を予測することは、コンピュータビジョンとグラフィックスの基本的な問題である。
最近の手法は主に、ワープされたパノラマの不足した内容を満たすために畳み込みニューラルネットワーク(CNN)に依存している。
大規模パノラマ塗布における局所的・言語的戦略を提案する。
論文 参考訳(メタデータ) (2023-03-18T06:18:49Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision
Transformers for Panoramic Semantic Segmentation [73.54717196840907]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず,パノラマ意味論,すなわち Trans4PASS+ のための改良版 Transformer を提案する。
第2に,Multual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を備えた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation [35.698249161263966]
畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深さ推定手法は、パノラマ歪みの除去に重点を置いている。
本稿では,パノラマ画像の深さを推定するパノラマ変換器を提案する。
特に、球面接領域のパッチをトークンに分割し、パノラマ歪みの負の効果を低減する。
論文 参考訳(メタデータ) (2022-03-17T12:19:43Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Geometry-Guided Street-View Panorama Synthesis from Satellite Imagery [80.6282101835164]
オーバヘッド衛星画像から新しいストリートビューパノラマを合成するための新しいアプローチを提案する。
本手法は,googleの全方位ストリートビュー型パノラマを,衛星パッチの中央と同じ地理的位置から取得したかのように生成する。
論文 参考訳(メタデータ) (2021-03-02T10:27:05Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。