Fugu-MT 論文翻訳(概要): PanoContext-Former: Panoramic Total Scene Understanding with a Transformer

論文の概要: PanoContext-Former: Panoramic Total Scene Understanding with a Transformer

arxiv url: http://arxiv.org/abs/2305.12497v2
Date: Mon, 5 Jun 2023 04:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 01:10:42.356042
Title: PanoContext-Former: Panoramic Total Scene Understanding with a Transformer
Title（参考訳）: パノコンテクストフォーマ:変圧器を用いたパノラマ全景理解
Authors: Yuan Dong, Chuan Fang, Liefeng Bo, Zilong Dong, Ping Tan
Abstract要約: パノラマ画像は、周囲の環境についてより深く理解し、より総合的な認識を可能にする。本稿では,室内環境の総合的理解に先立って深度を用いた新しい手法を提案する。さらに,写真リアリスティックパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。
参考スコア（独自算出の注目度）: 37.51637352106841
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Panoramic image enables deeper understanding and more holistic perception of $360^\circ$ surrounding environment, which can naturally encode enriched scene context information compared to standard perspective image. Previous work has made lots of effort to solve the scene understanding task in a bottom-up form, thus each sub-task is processed separately and few correlations are explored in this procedure. In this paper, we propose a novel method using depth prior for holistic indoor scene understanding which recovers the objects' shapes, oriented bounding boxes and the 3D room layout simultaneously from a single panorama. In order to fully utilize the rich context information, we design a transformer-based context module to predict the representation and relationship among each component of the scene. In addition, we introduce a real-world dataset for scene understanding, including photo-realistic panoramas, high-fidelity depth images, accurately annotated room layouts, and oriented object bounding boxes and shapes. Experiments on the synthetic and real-world datasets demonstrate that our method outperforms previous panoramic scene understanding methods in terms of both layout estimation and 3D object detection.
Abstract（参考訳）: パノラマ画像は、360^\circ$の周囲の環境をより深く理解し、より総合的な認識を可能にする。これまでの作業では,ボトムアップ形式でのシーン理解タスクの解決に多くの努力を払ってきたため,各サブタスクは別々に処理され,この手順では相関関係がほとんどない。本論文では,1つのパノラマからオブジェクトの形状,配向箱,3次元部屋レイアウトを同時に復元する,総合的な屋内シーン理解のための奥行き事前を用いた新しい手法を提案する。豊かなコンテキスト情報を完全に活用するために,シーンの各コンポーネント間の表現と関係を予測するトランスフォーマティブベースのコンテキストモジュールを設計した。さらに,写真リアルパノラマ,高忠実度深度画像,正確にアノテートされた部屋レイアウト,配向オブジェクト境界ボックスや形状など,シーン理解のための実世界のデータセットを導入する。合成データと実世界のデータを用いた実験により,従来のパノラマシーン理解手法よりもレイアウト推定と3次元物体検出の両面で優れていることが示された。

関連論文リスト

Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。 PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。 COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文参考訳（メタデータ） (2024-06-11T20:34:10Z)
PanoViT: Vision Transformer for Room Layout Estimation from a Single Panoramic Image [11.053777620735175]
PanoViTはパノラマ視覚変換器で、1枚のパノラマ画像から部屋のレイアウトを推定する。 CNNモデルと比較して、私たちのPanoViTはパノラマ画像からグローバル情報を学ぶのに熟練しています。本手法は,室内配置予測精度において最先端の手法より優れる。
論文参考訳（メタデータ） (2022-12-23T05:37:11Z)
Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations [48.05445941939446]
コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。 SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズ処理やアンポーズ処理を行う手法である。本手法は,PSNRおよび合成データセットの速度において,最近のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-25T16:18:56Z)
DeepPanoContext: Panoramic 3D Scene Understanding with Holistic Scene Context Graph and Relation-based Optimization [66.25948693095604]
本研究では,パノラマ画像から各オブジェクトの3次元空間配置と形状,ポーズ,位置,意味的カテゴリを復元するパノラマ3次元シーン理解手法を提案する。実験により, この手法は, パノラマシーン理解において, 幾何学的精度とオブジェクト配置の両方の観点から, 既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2021-08-24T13:55:29Z)
IBRNet: Learning Multi-View Image-Based Rendering [67.15887251196894]
本稿では,近接ビューの疎集合を補間することにより,複雑なシーンの新しいビューを合成する手法を提案する。レンダリング時にソースビューを描画することで、画像ベースのレンダリングに関する古典的な作業に戻ります。
論文参考訳（メタデータ） (2021-02-25T18:56:21Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)
Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文参考訳（メタデータ） (2020-06-25T21:18:58Z)
Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image [24.99186733297264]
本研究では,単一画像から部屋レイアウト,オブジェクト境界ボックス,メッシュを共同で再構築するエンド・ツー・エンドのソリューションを提案する。本手法は,3成分からなる粗大な階層構造を提案する。 SUN RGB-D および Pix3D データセットを用いた実験により,本手法が既存手法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2020-02-27T16:00:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。