論文の概要: CVSformer: Cross-View Synthesis Transformer for Semantic Scene
Completion
- arxiv url: http://arxiv.org/abs/2307.07938v1
- Date: Sun, 16 Jul 2023 04:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:48:37.464375
- Title: CVSformer: Cross-View Synthesis Transformer for Semantic Scene
Completion
- Title(参考訳): CVSformer:セマンティックシーン補完のためのクロスビュー合成変換器
- Authors: Haotian Dong (1), Enhui Ma (1), Lubo Wang (1), Miaohui Wang (2),
Wuyuan Xie (2), Qing Guo (3), Ping Li (4), Lingyu Liang (5), Kairui Yang (6),
Di Lin (1) ((1) Tianjin University, (2) Shenzhen University, (3) A*STAR, (4)
The Hong Kong Polytechnic University, (5) South China University of
Technology, (6) Alibaba Damo Academy)
- Abstract要約: クロスビューオブジェクト関係を学習するための多視点特徴合成とクロスビュー変換からなるクロスビュー合成変換器(CVSformer)を提案する。
拡張された特徴を用いて、全てのボクセルの幾何学的占有度と意味ラベルを予測する。
我々はCVSformerを公開データセット上で評価し、CVSformerは最先端の結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic scene completion (SSC) requires an accurate understanding of the
geometric and semantic relationships between the objects in the 3D scene for
reasoning the occluded objects. The popular SSC methods voxelize the 3D
objects, allowing the deep 3D convolutional network (3D CNN) to learn the
object relationships from the complex scenes. However, the current networks
lack the controllable kernels to model the object relationship across multiple
views, where appropriate views provide the relevant information for suggesting
the existence of the occluded objects. In this paper, we propose Cross-View
Synthesis Transformer (CVSformer), which consists of Multi-View Feature
Synthesis and Cross-View Transformer for learning cross-view object
relationships. In the multi-view feature synthesis, we use a set of 3D
convolutional kernels rotated differently to compute the multi-view features
for each voxel. In the cross-view transformer, we employ the cross-view fusion
to comprehensively learn the cross-view relationships, which form useful
information for enhancing the features of individual views. We use the enhanced
features to predict the geometric occupancies and semantic labels of all
voxels. We evaluate CVSformer on public datasets, where CVSformer yields
state-of-the-art results.
- Abstract(参考訳): セマンティックシーン補完(SSC)は、3Dシーンにおけるオブジェクト間の幾何学的および意味的関係を正確に理解し、隠蔽されたオブジェクトを推論する。
一般的なSSC法は3Dオブジェクトを酸化し、3D畳み込みネットワーク(3D CNN)が複雑なシーンからオブジェクトの関係を学習できるようにする。
しかし、現在のネットワークは、複数のビューにわたるオブジェクト関係をモデル化するための制御可能なカーネルを欠いている。
本稿では,マルチビュー特徴合成とクロスビューオブジェクト関係学習のためのクロスビュートランスからなるクロスビュー合成トランス(cvsformer)を提案する。
マルチビュー機能合成では、3次元畳み込みカーネルのセットをそれぞれ異なる回転させ、それぞれのvoxelのマルチビュー機能を計算する。
クロスビュートランスフォーマーでは、クロスビュー融合を用いて、クロスビュー関係を包括的に学習し、個々のビューの特徴を高める有用な情報を形成する。
拡張された特徴を用いて、全てのボクセルの幾何学的占有度と意味ラベルを予測する。
我々はCVSformerを公開データセット上で評価し、CVSformerは最先端の結果を得る。
関連論文リスト
- Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - Self-supervised Learning by View Synthesis [62.27092994474443]
本稿では,視覚変換のための自己教師型学習フレームワークであるビュー合成オートエンコーダ(VSA)について述べる。
各イテレーションにおいて、VSAへの入力は3Dオブジェクトの1つのビュー(または複数のビュー)であり、出力は別のターゲットポーズで合成された画像である。
論文 参考訳(メタデータ) (2023-04-22T06:12:13Z) - Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。
本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文 参考訳(メタデータ) (2023-03-25T19:56:41Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Stable View Synthesis [100.86844680362196]
安定ビュー合成(SVS)について紹介する。
SVSは、自由に分散された視点からシーンを描写するソースイメージのセットを与えられた場合、シーンの新たなビューを合成する。
SVSは3つの異なる実世界のデータセットに対して定量的かつ質的に、最先端のビュー合成手法より優れている。
論文 参考訳(メタデータ) (2020-11-14T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。