論文の概要: VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion
- arxiv url: http://arxiv.org/abs/2112.00236v1
- Date: Wed, 1 Dec 2021 02:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:03:07.068538
- Title: VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion
- Title(参考訳): VoRTX:Voxelwise View Selection and Fusionのためのトランスフォーマーを用いたボリューム3D再構成
- Authors: Noah Stier, Alexander Rich, Pradeep Sen, Tobias H\"ollerer
- Abstract要約: VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
- 参考スコア(独自算出の注目度): 68.68537312256144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent volumetric 3D reconstruction methods can produce very accurate
results, with plausible geometry even for unobserved surfaces. However, they
face an undesirable trade-off when it comes to multi-view fusion. They can fuse
all available view information by global averaging, thus losing fine detail, or
they can heuristically cluster views for local fusion, thus restricting their
ability to consider all views jointly. Our key insight is that greater detail
can be retained without restricting view diversity by learning a view-fusion
function conditioned on camera pose and image content. We propose to learn this
multi-view fusion using a transformer. To this end, we introduce VoRTX, an
end-to-end volumetric 3D reconstruction network using transformers for
wide-baseline, multi-view feature fusion. Our model is occlusion-aware,
leveraging the transformer architecture to predict an initial, projective scene
geometry estimate. This estimate is used to avoid backprojecting image features
through surfaces into occluded regions. We train our model on ScanNet and show
that it produces better reconstructions than state-of-the-art methods. We also
demonstrate generalization without any fine-tuning, outperforming the same
state-of-the-art methods on two other datasets, TUM-RGBD and ICL-NUIM.
- Abstract(参考訳): 近年の体積3次元再構成法は, 未観測表面においても, 極めて正確な形状が得られた。
しかし、マルチビュー融合に関しては望ましくないトレードオフに直面している。
グローバル平均化によって利用可能なすべてのビュー情報を融合し、詳細な詳細を失うか、あるいは局所的な融合のためにヒューリスティックにクラスタ化することで、すべてのビューを共同で検討する能力を制限することができる。
我々の重要な洞察は、カメラのポーズや画像の内容に条件付けされたビューフュージョン関数を学習することで、ビューの多様性を制限することなく、より詳細を維持できるということである。
本稿では,この多視点融合をトランスを用いて学習することを提案する。
この目的のために,多視点機能融合のためのトランスフォーマを用いたエンドツーエンドのボリューム3D再構成ネットワークであるVoRTXを紹介する。
このモデルでは,初期投影型シーン形状推定の予測にトランスフォーマーアーキテクチャを利用する。
この推定は、表面を遮蔽領域にバックプロジェクションすることを避けるために用いられる。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
また,TUM-RGBD と ICL-NUIM の2つの他のデータセットにおいて,最先端の手法よりも高い精度で,微調整なしで一般化を実証する。
関連論文リスト
- GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - TransformerFusion: Monocular RGB Scene Reconstruction using Transformers [26.87200488085741]
TransformerFusionはトランスフォーマーベースの3Dシーン再構築手法である。
ネットワークは、シーン内の3D位置ごとに最も関連性の高い画像フレームに参加することを学習する。
機能は粗い方法で融合され、必要なときにのみ細かい機能を保持する。
論文 参考訳(メタデータ) (2021-07-05T18:00:11Z) - LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction [45.16128577837725]
現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
論文 参考訳(メタデータ) (2021-06-23T00:15:08Z) - Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。
本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。
パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文 参考訳(メタデータ) (2021-03-24T03:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。