論文の概要: PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image
- arxiv url: http://arxiv.org/abs/2212.12156v1
- Date: Fri, 23 Dec 2022 05:37:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:54:04.834114
- Title: PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image
- Title(参考訳): PanoViT:単一パノラマ画像からのルームレイアウト推定用視覚変換器
- Authors: Weichao Shen, Yuan Dong, Zonghao Chen, Zhengyi Zhao, Yang Gao, and Zhu
Liu
- Abstract要約: PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 11.053777620735175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose PanoViT, a panorama vision transformer to estimate
the room layout from a single panoramic image. Compared to CNN models, our
PanoViT is more proficient in learning global information from the panoramic
image for the estimation of complex room layouts. Considering the difference
between a perspective image and an equirectangular image, we design a novel
recurrent position embedding and a patch sampling method for the processing of
panoramic images. In addition to extracting global information, PanoViT also
includes a frequency-domain edge enhancement module and a 3D loss to extract
local geometric features in a panoramic image. Experimental results on several
datasets demonstrate that our method outperforms state-of-the-art solutions in
room layout prediction accuracy.
- Abstract(参考訳): 本論文では,パノラマ画像から部屋のレイアウトを推定するパノラマ視覚変換器パノViTを提案する。
cnnモデルと比較すると,パノラマ画像からグローバル情報を学習し,複雑な部屋レイアウトの推定に熟練している。
視線画像と正方形画像の差を考慮すると,パノラマ画像処理のための新しい再帰的位置埋め込みとパッチサンプリング法を設計する。
グローバルな情報の抽出に加えて、パノラマ画像の局所的な幾何学的特徴を抽出する周波数領域エッジ拡張モジュールと3Dロスも備えている。
実験結果から,提案手法は室内配置予測精度において最先端の手法より優れていることが示された。
関連論文リスト
- DiffPano: Scalable and Consistent Text to Panorama Generation with Spherical Epipolar-Aware Diffusion [60.45000652592418]
本稿では,テキスト駆動型パノラマ生成フレームワークDiffPanoを提案し,拡張性,一貫性,多様なパノラマシーン生成を実現する。
DiffPanoは、不明瞭なテキスト記述とカメラのポーズによって、一貫した多様なパノラマ画像を生成することができることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:02Z) - PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene
Understanding [14.489840196199882]
PanoMixSwapは、室内パノラマ画像用に特別に設計された新しいデータ拡張技術である。
それぞれのパノラマ画像を,背景スタイル,前景家具,室内レイアウトといった構成部品に分解する。
我々は,この3つの部分を1つの画像から前景家具,もう1つの画像から背景スタイル,そして3番目の画像から部屋構造など,3つの異なる画像から混合して拡張画像を生成する。
論文 参考訳(メタデータ) (2023-09-18T06:52:13Z) - PanoSwin: a Pano-style Swin Transformer for Panorama Understanding [15.115868803355081]
等方射影(ERP)は境界の不連続性と空間歪みを含む。
我々はパノラマ表現をERPで学習するためにPanoSwinを提案する。
各種パノラマ作業における最先端技術に対する実験を行う。
論文 参考訳(メタデータ) (2023-08-28T17:30:14Z) - PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline
Panoramas [54.4948540627471]
広帯域パノラマのための一般化可能な球面放射場パノGRFを提案する。
パノGRFは、視線画像に基づいて訓練された一般化可能な放射場とは異なり、パノラマからパースペクティブへの変換から情報損失を回避する。
複数のパノラマデータセットの結果は、パノGRFが最先端の一般化可能なビュー合成法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2023-06-02T13:35:07Z) - PanoGen: Text-Conditioned Panoramic Environment Generation for
Vision-and-Language Navigation [96.8435716885159]
VLN(Vision-and-Language Navigation)は、エージェントが3D環境をナビゲートするために言語命令に従う必要がある。
VLNの主な課題のひとつは、トレーニング環境の可用性が限定されていることだ。
パノジェネレーション(PanoGen)は、テキストに条件付けされた多様なパノラマ環境を無限に生成できる生成方法である。
論文 参考訳(メタデータ) (2023-05-30T16:39:54Z) - PanoContext-Former: Panoramic Total Scene Understanding with a
Transformer [37.51637352106841]
パノラマ画像は、周囲の環境についてより深く理解し、より総合的な認識を可能にする。
本稿では,室内環境の総合的理解に先立って深度を用いた新しい手法を提案する。
さらに,写真リアリスティックパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
論文 参考訳(メタデータ) (2023-05-21T16:20:57Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - GLPanoDepth: Global-to-Local Panoramic Depth Estimation [18.06592473599777]
単眼全方位画像からシーンの深度を推定する学習手法を提案する。
球面信号に対するグローバルなコヒーレントな予測が可能であることを示す。
このグローバル・ローカル戦略により、パノラマにおける有用なグローバル・ローカル機能を完全に活用し、パノラマ深度推定における最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2022-02-06T15:11:58Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。