論文の概要: Multi-view 3D Reconstruction with Transformer
- arxiv url: http://arxiv.org/abs/2103.12957v1
- Date: Wed, 24 Mar 2021 03:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:03:58.128064
- Title: Multi-view 3D Reconstruction with Transformer
- Title(参考訳): トランスフォーマによる多視点3次元再構成
- Authors: Dan Wang, Xinrui Cui, Xun Chen, Zhengxia Zou, Tianyang Shi, Septimiu
Salcudean, Z. Jane Wang, Rabab Ward
- Abstract要約: シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
- 参考スコア(独自算出の注目度): 34.756336770583154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep CNN-based methods have so far achieved the state of the art results in
multi-view 3D object reconstruction. Despite the considerable progress, the two
core modules of these methods - multi-view feature extraction and fusion, are
usually investigated separately, and the object relations in different views
are rarely explored. In this paper, inspired by the recent great success in
self-attention-based Transformer models, we reformulate the multi-view 3D
reconstruction as a sequence-to-sequence prediction problem and propose a new
framework named 3D Volume Transformer (VolT) for such a task. Unlike previous
CNN-based methods using a separate design, we unify the feature extraction and
view fusion in a single Transformer network. A natural advantage of our design
lies in the exploration of view-to-view relationships using self-attention
among multiple unordered inputs. On ShapeNet - a large-scale 3D reconstruction
benchmark dataset, our method achieves a new state-of-the-art accuracy in
multi-view reconstruction with fewer parameters ($70\%$ less) than other
CNN-based methods. Experimental results also suggest the strong scaling
capability of our method. Our code will be made publicly available.
- Abstract(参考訳): 深層CNNに基づく手法は, マルチビュー3次元オブジェクト再構成において, 最先端の成果を達成している。
かなりの進歩にもかかわらず、これらの方法の2つのコアモジュール(マルチビュー特徴抽出と融合)は通常別々に調査され、異なるビューのオブジェクト関係はめったに探求されない。
本稿では,近年の自己注意型トランスフォーマーモデルの成功に触発されて,シーケンス・ツー・シーケンス予測問題として多視点3D再構成を再構成し,その課題に対する新しい3Dボリュームトランスフォーマー(VolT)を提案する。
異なる設計を用いた従来のCNN方式とは異なり、単一トランスフォーマーネットワークにおける特徴抽出とビュー融合を統一する。
我々の設計の自然な利点は、複数の非順序入力間の自己注意を用いたビュー・ツー・ビュー関係の探索である。
大規模な3次元再構成ベンチマークデータセットであるShapeNetでは,他のCNN手法よりも少ないパラメータ (70 %$) のマルチビュー再構成において,新しい最先端の精度を実現する。
また,本手法のスケーリング能力も実験的に示唆された。
私たちのコードは公開されます。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [71.48667086232618]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z) - End-to-End Multi-View Structure-from-Motion with Hypercorrelation
Volumes [7.99536002595393]
この問題に対処するために深層学習技術が提案されている。
我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。
一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
論文 参考訳(メタデータ) (2022-09-14T20:58:44Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction [45.16128577837725]
現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
論文 参考訳(メタデータ) (2021-06-23T00:15:08Z) - MVTN: Multi-View Transformation Network for 3D Shape Recognition [80.34385402179852]
本稿では,3次元形状認識のための最適視点を回帰するマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明らかな性能向上を示す。
論文 参考訳(メタデータ) (2020-11-26T11:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。