論文の概要: LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2106.12102v1
- Date: Wed, 23 Jun 2021 00:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:22:50.237942
- Title: LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction
- Title(参考訳): LegoFormer:マルチビュー3D再構築のためのトランスフォーマー
- Authors: Farid Yagubbayli, Alessio Tonioni, Federico Tombari
- Abstract要約: 現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
- 参考スコア(独自算出の注目度): 45.16128577837725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most modern deep learning-based multi-view 3D reconstruction techniques use
RNNs or fusion modules to combine information from multiple images after
encoding them. These two separate steps have loose connections and do not
consider all available information while encoding each view. We propose
LegoFormer, a transformer-based model that unifies object reconstruction under
a single framework and parametrizes the reconstructed occupancy grid by its
decomposition factors. This reformulation allows the prediction of an object as
a set of independent structures then aggregated to obtain the final
reconstruction. Experiments conducted on ShapeNet display the competitive
performance of our network with respect to the state-of-the-art methods. We
also demonstrate how the use of self-attention leads to increased
interpretability of the model output.
- Abstract(参考訳): 現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
これら2つのステップは疎結合であり、各ビューをエンコーディングしている間に利用可能なすべての情報を考慮しない。
legoformerは,単一のフレームワークでオブジェクトの再構成を統一し,その分解因子によって再構成された占有グリッドをパラメータ化するトランスフォーマモデルである。
この再構成により、オブジェクトを独立した構造の集合として予測し、最終的な再構成を得ることができる。
shapenet上で行った実験では,最先端の手法に関して,ネットワークの競合性能を示す。
また,自己注意の使用がモデル出力の解釈可能性の向上につながることを示す。
関連論文リスト
- Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View [5.222115919729418]
シングルビュー3D再構成は現在、2つの主要な視点からアプローチされている。
分割・分散戦略に従うハイブリッド手法を提案する。
まず、深度と意味情報を抽出し、そのシーンを全体的に処理する。
次に、個々のコンポーネントの詳細な再構築に単発オブジェクトレベル手法を利用する。
論文 参考訳(メタデータ) (2024-04-04T12:58:46Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z) - STD-Net: Structure-preserving and Topology-adaptive Deformation Network
for 3D Reconstruction from a Single Image [27.885717341244014]
単一のビューイメージからの3D再構成は、コンピュータビジョンにおける長年の進歩である。
本稿では,メッシュ表現を用いた3次元モデル再構築のためのSTD-Netを提案する。
ShapeNetの画像による実験結果から, 提案したSTD-Netは, 3Dオブジェクトを再構成する他の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-03-07T11:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。