論文の概要: TransformerFusion: Monocular RGB Scene Reconstruction using Transformers
- arxiv url: http://arxiv.org/abs/2107.02191v1
- Date: Mon, 5 Jul 2021 18:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:53:01.311923
- Title: TransformerFusion: Monocular RGB Scene Reconstruction using Transformers
- Title(参考訳): TransformerFusion: Transformer を用いた単眼 RGB シーン再構成
- Authors: Alja\v{z} Bo\v{z}i\v{c}, Pablo Palafox, Justus Thies, Angela Dai,
Matthias Nie{\ss}ner
- Abstract要約: TransformerFusionはトランスフォーマーベースの3Dシーン再構築手法である。
ネットワークは、シーン内の3D位置ごとに最も関連性の高い画像フレームに参加することを学習する。
機能は粗い方法で融合され、必要なときにのみ細かい機能を保持する。
- 参考スコア(独自算出の注目度): 26.87200488085741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TransformerFusion, a transformer-based 3D scene reconstruction
approach. From an input monocular RGB video, the video frames are processed by
a transformer network that fuses the observations into a volumetric feature
grid representing the scene; this feature grid is then decoded into an implicit
3D scene representation. Key to our approach is the transformer architecture
that enables the network to learn to attend to the most relevant image frames
for each 3D location in the scene, supervised only by the scene reconstruction
task. Features are fused in a coarse-to-fine fashion, storing fine-level
features only where needed, requiring lower memory storage and enabling fusion
at interactive rates. The feature grid is then decoded to a higher-resolution
scene reconstruction, using an MLP-based surface occupancy prediction from
interpolated coarse-to-fine 3D features. Our approach results in an accurate
surface reconstruction, outperforming state-of-the-art multi-view stereo depth
estimation methods, fully-convolutional 3D reconstruction approaches, and
approaches using LSTM- or GRU-based recurrent networks for video sequence
fusion.
- Abstract(参考訳): 本稿ではトランスフォーマーを用いた3次元シーン再構築手法であるTransformerFusionを紹介する。
入力単眼のRGBビデオから、映像フレームはトランスフォーマーネットワークによって処理され、シーンを表すボリューム特徴グリッドに融合し、この特徴グリッドは暗黙の3Dシーン表現にデコードされる。
提案手法の鍵となるのがトランスフォーマーアーキテクチャで、シーン内の3D位置ごとに最も関連性の高い画像フレームを学習し、シーン再構築タスクのみによって管理する。
機能は粗大な方法で融合し、必要な時にのみ詳細な機能を格納し、メモリストレージを低くし、対話的なレートで融合を可能にする。
特徴格子は、補間された粗い3次元特徴からMLPに基づく表面占有率予測を用いて、高解像度のシーン再構成にデコードされる。
本手法は, 高精度な表面再構成, 最先端のマルチビューステレオ深度推定法, 完全畳み込み3次元再構成法, ビデオシーケンス融合のためのlstmまたはgrを用いたアプローチを実現する。
関連論文リスト
- HybridOcc: NeRF Enhanced Transformer-based Multi-Camera 3D Occupancy Prediction [14.000919964212857]
視覚に基づく3Dセマンティックシーン補完は、3Dボリューム表現を通して自律走行シーンを記述する。
HybridOccはTransformerフレームワークとNeRF表現によって生成されるハイブリッド3Dボリュームクエリ提案手法である。
本研究では,シーン表面に焦点をあてるのではなく,SSCタスクのオリエント化を図るために,革新的な占有光サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T05:50:51Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Structural Multiplane Image: Bridging Neural View Synthesis and 3D
Reconstruction [39.89856628467095]
平面構造が3次元シーンを簡潔に近似する構造的MPI(S-MPI)を導入する。
S-MPIを適用するという直感と要求にもかかわらず、RGBA層と平面の両方の高忠実度近似のような大きな課題が導入されている。
提案手法は,従来のMPIを用いたビュー合成法と平面再構成法より優れていた。
論文 参考訳(メタデータ) (2023-03-10T14:18:40Z) - VolRecon: Volume Rendering of Signed Ray Distance Functions for
Generalizable Multi-View Reconstruction [64.09702079593372]
VolRecon は Signed Ray Distance Function (SRDF) を用いた新しい一般化可能な暗黙的再構成法である
DTUデータセットでは、VolReconはスパースビュー再構築においてSparseNeuSを約30%上回り、フルビュー再構築においてMVSNetと同等の精度を達成する。
論文 参考訳(メタデータ) (2022-12-15T18:59:54Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single
and Multi-view 3D Reconstruction [23.21446438011893]
VPFusionは、3D特徴量の両方を使って高品質な再構築を実現し、3D構造対応コンテキストをキャプチャする。
既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。
変換器を用いたペアワイズ・ビュー・アソシエーションの確立により,マルチビュー・フィーチャー・フュージョンが改善された。
論文 参考訳(メタデータ) (2022-03-14T23:30:58Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z) - Extracting Triangular 3D Models, Materials, and Lighting From Images [59.33666140713829]
多視点画像観測による材料と照明の協調最適化手法を提案する。
従来のグラフィックスエンジンにデプロイ可能な,空間的に変化する材料と環境を備えたメッシュを活用します。
論文 参考訳(メタデータ) (2021-11-24T13:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。