論文の概要: PanoSwin: a Pano-style Swin Transformer for Panorama Understanding
- arxiv url: http://arxiv.org/abs/2308.14726v1
- Date: Mon, 28 Aug 2023 17:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 12:54:40.910160
- Title: PanoSwin: a Pano-style Swin Transformer for Panorama Understanding
- Title(参考訳): PanoSwin:パノラマ理解のためのパノラマ式スイムトランス
- Authors: Zhixin Ling, Zhen Xing, Xiangdong Zhou, Manliang Cao, Guichun Zhou
- Abstract要約: 等方射影(ERP)は境界の不連続性と空間歪みを含む。
我々はパノラマ表現をERPで学習するためにPanoSwinを提案する。
各種パノラマ作業における最先端技術に対する実験を行う。
- 参考スコア(独自算出の注目度): 15.115868803355081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In panorama understanding, the widely used equirectangular projection (ERP)
entails boundary discontinuity and spatial distortion. It severely deteriorates
the conventional CNNs and vision Transformers on panoramas. In this paper, we
propose a simple yet effective architecture named PanoSwin to learn panorama
representations with ERP. To deal with the challenges brought by
equirectangular projection, we explore a pano-style shift windowing scheme and
novel pitch attention to address the boundary discontinuity and the spatial
distortion, respectively. Besides, based on spherical distance and Cartesian
coordinates, we adapt absolute positional embeddings and relative positional
biases for panoramas to enhance panoramic geometry information. Realizing that
planar image understanding might share some common knowledge with panorama
understanding, we devise a novel two-stage learning framework to facilitate
knowledge transfer from the planar images to panoramas. We conduct experiments
against the state-of-the-art on various panoramic tasks, i.e., panoramic object
detection, panoramic classification, and panoramic layout estimation. The
experimental results demonstrate the effectiveness of PanoSwin in panorama
understanding.
- Abstract(参考訳): パノラマ理解において、広く使われる等角射影(erp)は境界の不連続性と空間歪を伴う。
パノラマの従来のcnnや視覚トランスフォーマーをひどく劣化させる。
本稿では,パノラマ表現をERPで学習する上で,PanoSwinというシンプルなアーキテクチャを提案する。
等角射影による課題に対処するため, 境界の不連続性と空間歪みに対処するために, パノスタイルのシフトウインドウスキームと新しいピッチアテンションを探索する。
さらに,球面距離と直交座標に基づいて,パノラマの絶対位置埋め込みと相対位置バイアスを適用し,パノラマ幾何学情報を強化する。
平面画像理解がパノラマ理解と共通する知識を共有していることを認識し,平面画像からパノラマへの知識伝達を容易にする新しい2段階学習フレームワークを考案する。
我々は,パノラマオブジェクト検出,パノラマ分類,パノラマレイアウト推定など,様々なパノラマタスクに対する最先端技術に対する実験を行った。
実験結果はパノラマ理解におけるパノスウィンの有効性を示した。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - VidPanos: Generative Panoramic Videos from Casual Panning Videos [73.77443496436749]
パノラマ画像ステッチは、カメラの視野を越えて広がるシーンの統一された広角ビューを提供する。
本稿では,カジュアルにキャプチャされたパンニングビデオからパノラマ動画を合成する方法を提案する。
我々のシステムは、人、車、流れる水など、さまざまな場所のシーンにビデオパノラマを作成できる。
論文 参考訳(メタデータ) (2024-10-17T17:53:24Z) - Multi-source Domain Adaptation for Panoramic Semantic Segmentation [21.6293634368587]
パノラマセマンティックセグメンテーションの方法は、実際のパノラマ画像にセグメンテーションモデルを転送するために、実際のピンホール画像または低コストの合成パノラマ画像を利用する。
MSDA4PASSは、実際のピンホールと合成パノラマ画像の両方を用いて、ラベルのない実際のパノラマ画像のセグメンテーションを改善する。
MSDA4PASSは2つの主要コンポーネントから構成される: Unpaired Semantic Morphing (USM) と Distortion Gating Alignment (DGA) である。
論文 参考訳(メタデータ) (2024-08-29T12:00:11Z) - Mixed-View Panorama Synthesis using Geospatially Guided Diffusion [15.12293324464805]
混合ビューパノラマ合成の課題を紹介する。
目標は、小さな入力パノラマセットと、その地域の衛星画像が与えられた新しいパノラマを合成することである。
論文 参考訳(メタデータ) (2024-07-12T20:12:07Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - Panoramic Image-to-Image Translation [37.9486466936501]
パノラマ画像変換(Pano-I2I)の課題に初めて取り組む。
この課題は、パノラマ画像の幾何学的歪みと、天候や時間といった様々な条件のパノラマ画像データセットが欠如しているために困難である。
ピンホール画像から参照するグローバルなスタイルを一貫して翻訳しながらパノラマ画像の構造を保存するパノラマ歪み認識型I2Iモデルを提案する。
論文 参考訳(メタデータ) (2023-04-11T04:08:58Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Behind Every Domain There is a Shift: Adapting Distortion-aware Vision Transformers for Panoramic Semantic Segmentation [73.48323921632506]
パノラマ的セマンティックセマンティックセグメンテーションは2つの重要な課題により未探索である。
まず、変形性パッチ埋め込み(DPE)と変形性(DMLPv2)モジュールを備えたパノラマセマンティックトランス4PASS+を改良したトランスフォーマーを提案する。
第2に、教師なしドメイン適応パノラマセグメンテーションのための擬似ラベル修正により、Mutual Prototypeal Adaptation(MPA)戦略を強化する。
第3に、Pinhole-to-Panoramic(Pin2Pan)適応とは別に、9,080パノラマ画像を用いた新しいデータセット(SynPASS)を作成します。
論文 参考訳(メタデータ) (2022-07-25T00:42:38Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - PanoFormer: Panorama Transformer for Indoor 360{\deg} Depth Estimation [35.698249161263966]
畳み込みニューラルネットワーク(CNN)に基づく既存のパノラマ深さ推定手法は、パノラマ歪みの除去に重点を置いている。
本稿では,パノラマ画像の深さを推定するパノラマ変換器を提案する。
特に、球面接領域のパッチをトークンに分割し、パノラマ歪みの負の効果を低減する。
論文 参考訳(メタデータ) (2022-03-17T12:19:43Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。