Fugu-MT 論文翻訳(概要): Multi-view 3D Reconstruction with Transformer

論文の概要: Multi-view 3D Reconstruction with Transformer

arxiv url: http://arxiv.org/abs/2103.12957v1
Date: Wed, 24 Mar 2021 03:14:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-25 14:03:58.128064
Title: Multi-view 3D Reconstruction with Transformer
Title（参考訳）: トランスフォーマによる多視点3次元再構成
Authors: Dan Wang, Xinrui Cui, Xun Chen, Zhengxia Zou, Tianyang Shi, Septimiu Salcudean, Z. Jane Wang, Rabab Ward
Abstract要約: シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
参考スコア（独自算出の注目度）: 34.756336770583154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep CNN-based methods have so far achieved the state of the art results in multi-view 3D object reconstruction. Despite the considerable progress, the two core modules of these methods - multi-view feature extraction and fusion, are usually investigated separately, and the object relations in different views are rarely explored. In this paper, inspired by the recent great success in self-attention-based Transformer models, we reformulate the multi-view 3D reconstruction as a sequence-to-sequence prediction problem and propose a new framework named 3D Volume Transformer (VolT) for such a task. Unlike previous CNN-based methods using a separate design, we unify the feature extraction and view fusion in a single Transformer network. A natural advantage of our design lies in the exploration of view-to-view relationships using self-attention among multiple unordered inputs. On ShapeNet - a large-scale 3D reconstruction benchmark dataset, our method achieves a new state-of-the-art accuracy in multi-view reconstruction with fewer parameters ($70\%$ less) than other CNN-based methods. Experimental results also suggest the strong scaling capability of our method. Our code will be made publicly available.
Abstract（参考訳）: 深層CNNに基づく手法は, マルチビュー3次元オブジェクト再構成において, 最先端の成果を達成している。かなりの進歩にもかかわらず、これらの方法の2つのコアモジュール(マルチビュー特徴抽出と融合)は通常別々に調査され、異なるビューのオブジェクト関係はめったに探求されない。本稿では,近年の自己注意型トランスフォーマーモデルの成功に触発されて,シーケンス・ツー・シーケンス予測問題として多視点3D再構成を再構成し,その課題に対する新しい3Dボリュームトランスフォーマー(VolT)を提案する。異なる設計を用いた従来のCNN方式とは異なり、単一トランスフォーマーネットワークにおける特徴抽出とビュー融合を統一する。我々の設計の自然な利点は、複数の非順序入力間の自己注意を用いたビュー・ツー・ビュー関係の探索である。大規模な3次元再構成ベンチマークデータセットであるShapeNetでは,他のCNN手法よりも少ないパラメータ (70 %$) のマルチビュー再構成において,新しい最先端の精度を実現する。また,本手法のスケーリング能力も実験的に示唆された。私たちのコードは公開されます。

関連論文リスト

Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model [15.936267489962122]
ガウス散乱で表される3次元コンテンツに物体を挿入する新しい手法を提案する。提案手法では,事前学習した安定した映像拡散モデルに基づいて,MVInpainterと呼ばれる多視点拡散モデルを導入する。 MVInpainterの内部では、制御されたより予測可能なマルチビュー生成を可能にする制御ネットベースの条件付きインジェクションモジュールが組み込まれている。
論文参考訳（メタデータ） (2024-09-25T13:52:50Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。 MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文参考訳（メタデータ） (2022-12-27T12:09:16Z)
End-to-End Multi-View Structure-from-Motion with Hypercorrelation Volumes [7.99536002595393]
この問題に対処するために深層学習技術が提案されている。我々は現在最先端の2次元構造であるSfM(SfM)のアプローチを改善している。一般的なマルチビューのケースに拡張し、複雑なベンチマークデータセットDTUで評価する。
論文参考訳（メタデータ） (2022-09-14T20:58:44Z)
Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文参考訳（メタデータ） (2022-08-04T14:13:35Z)
VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文参考訳（メタデータ） (2022-03-14T23:30:58Z)
VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文参考訳（メタデータ） (2021-12-01T02:18:11Z)
LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction [45.16128577837725]
現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
論文参考訳（メタデータ） (2021-06-23T00:15:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。