論文の概要: PanoContext-Former: Panoramic Total Scene Understanding with a
Transformer
- arxiv url: http://arxiv.org/abs/2305.12497v1
- Date: Sun, 21 May 2023 16:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:05:47.064530
- Title: PanoContext-Former: Panoramic Total Scene Understanding with a
Transformer
- Title(参考訳): パノコンテクストフォーマ:変圧器を用いたパノラマ全景理解
- Authors: Yuan Dong, Chuan Fang, Zilong Dong, Liefeng Bo, Ping Tan
- Abstract要約: パノラマ画像は、周囲の環境についてより深く理解し、より総合的な認識を可能にする。
本稿では,室内環境の総合的理解に先立って深度を用いた新しい手法を提案する。
さらに,写真リアリスティックパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
- 参考スコア(独自算出の注目度): 37.51637352106841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Panoramic image enables deeper understanding and more holistic perception of
$360^\circ$ surrounding environment, which can naturally encode enriched scene
context information compared to standard perspective image. Previous work has
made lots of effort to solve the scene understanding task in a bottom-up form,
thus each sub-task is processed separately and few correlations are explored in
this procedure. In this paper, we propose a novel method using depth prior for
holistic indoor scene understanding which recovers the objects' shapes,
oriented bounding boxes and the 3D room layout simultaneously from a single
panorama. In order to fully utilize the rich context information, we design a
transformer-based context module to predict the representation and relationship
among each component of the scene. In addition, we introduce a real-world
dataset for scene understanding, including photo-realistic panoramas,
high-fidelity depth images, accurately annotated room layouts, and oriented
object bounding boxes and shapes. Experiments on the synthetic and real-world
datasets demonstrate that our method outperforms previous panoramic scene
understanding methods in terms of both layout estimation and 3D object
detection.
- Abstract(参考訳): パノラマ画像は、360^\circ$の周囲の環境をより深く理解し、より総合的な認識を可能にする。
これまでの作業では,ボトムアップ形式でのシーン理解タスクの解決に多くの努力を払ってきたため,各サブタスクは別々に処理され,この手順では相関関係がほとんどない。
本論文では,1つのパノラマからオブジェクトの形状,配向箱,3次元部屋レイアウトを同時に復元する,総合的な屋内シーン理解のための奥行き事前を用いた新しい手法を提案する。
豊かなコンテキスト情報を完全に活用するために,シーンの各コンポーネント間の表現と関係を予測するトランスフォーマティブベースのコンテキストモジュールを設計した。
さらに,写真リアルパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
合成データと実世界のデータを用いた実験により,従来のパノラマシーン理解手法よりもレイアウト推定と3次元物体検出の両面で優れていることが示された。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - PanoViT: Vision Transformer for Room Layout Estimation from a Single
Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。
CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。
本手法は,室内配置予測精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2022-12-23T05:37:11Z) - Scene Representation Transformer: Geometry-Free Novel View Synthesis
Through Set-Latent Scene Representations [48.05445941939446]
コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。
SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。
本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-25T16:18:56Z) - DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene
Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。
実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-08-24T13:55:29Z) - IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。
レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文 参考訳(メタデータ) (2021-02-25T18:56:21Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z) - Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction
for Indoor Scenes from a Single Image [24.99186733297264]
本研究では,単一画像から部屋レイアウト,オブジェクト境界ボックス,メッシュを共同で再構築するエンド・ツー・エンドのソリューションを提案する。
本手法は,3成分からなる粗大な階層構造を提案する。
SUN RGB-D および Pix3D データセットを用いた実験により,本手法が既存手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-02-27T16:00:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。