論文の概要: Geometry-aware Reconstruction and Fusion-refined Rendering for Generalizable Neural Radiance Fields
- arxiv url: http://arxiv.org/abs/2404.17528v1
- Date: Fri, 26 Apr 2024 16:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:35:26.069570
- Title: Geometry-aware Reconstruction and Fusion-refined Rendering for Generalizable Neural Radiance Fields
- Title(参考訳): 一般化可能なニューラルラジアンスフィールドのための幾何認識再構成と核融合精製レンダリング
- Authors: Tianqi Liu, Xinyi Ye, Min Shi, Zihao Huang, Zhiyu Pan, Zhan Peng, Zhiguo Cao,
- Abstract要約: Generalizable NeRFは、目に見えないシーンのための新しいビューを合成することを目的としている。
我々は、一貫したピクセル対の寄与を増幅するために、適応コスト集約(ACA)アプローチを導入する。
既存の2つのデコード戦略が相補的な異なる領域で優れていることを観察する。
- 参考スコア(独自算出の注目度): 18.474371929572918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable NeRF aims to synthesize novel views for unseen scenes. Common practices involve constructing variance-based cost volumes for geometry reconstruction and encoding 3D descriptors for decoding novel views. However, existing methods show limited generalization ability in challenging conditions due to inaccurate geometry, sub-optimal descriptors, and decoding strategies. We address these issues point by point. First, we find the variance-based cost volume exhibits failure patterns as the features of pixels corresponding to the same point can be inconsistent across different views due to occlusions or reflections. We introduce an Adaptive Cost Aggregation (ACA) approach to amplify the contribution of consistent pixel pairs and suppress inconsistent ones. Unlike previous methods that solely fuse 2D features into descriptors, our approach introduces a Spatial-View Aggregator (SVA) to incorporate 3D context into descriptors through spatial and inter-view interaction. When decoding the descriptors, we observe the two existing decoding strategies excel in different areas, which are complementary. A Consistency-Aware Fusion (CAF) strategy is proposed to leverage the advantages of both. We incorporate the above ACA, SVA, and CAF into a coarse-to-fine framework, termed Geometry-aware Reconstruction and Fusion-refined Rendering (GeFu). GeFu attains state-of-the-art performance across multiple datasets. Code is available at https://github.com/TQTQliu/GeFu .
- Abstract(参考訳): Generalizable NeRFは、目に見えないシーンのための新しいビューを合成することを目的としている。
一般的なプラクティスは、幾何学的再構成のための分散ベースのコストボリュームの構築と、新しいビューをデコードするための3Dディスクリプタの符号化である。
しかし,既存の手法では,不正確な幾何学,準最適記述子,復号化戦略などの問題条件下での一般化能力が限られている。
これらの問題はポイントごとに解決する。
まず,同じ点に対応する画素の特徴が,オクルージョンやリフレクションによって異なる視点で不整合であることから,分散に基づくコスト容積は故障パターンを示す。
我々は、一貫したピクセル対の寄与を増幅し、一貫性のないものを抑制するために、適応コスト集約(ACA)アプローチを導入する。
従来の2D機能のみをディスクリプタに融合させる手法とは違って,本手法では,空間とビュー間の相互作用を通じて3Dコンテキストをディスクリプタに組み込むSVA(Spatial-View Aggregator)を導入している。
ディスクリプタをデコードする場合,既存の2つのデコード戦略が相補的な異なる領域で優れているのを観察する。
両者の利点を活用するために,CAF(Consistency-Aware Fusion)戦略が提案されている。
上記のACA, SVA, CAFを, Geometry-aware Reconstruction and Fusion-refined Rendering (GeFu) と呼ばれる粗粒度フレームワークに組み込んだ。
GeFuは、複数のデータセットにわたる最先端のパフォーマンスを実現する。
コードはhttps://github.com/TQTQliu/GeFuで入手できる。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images [57.71600854525037]
RGB-D画像からの6次元ポーズ推定のためのFuse-Describe-Match戦略を提案する。
MatchUは、2Dテクスチャと6Dポーズ予測のための3D幾何学的手がかりを融合する汎用的なアプローチである。
論文 参考訳(メタデータ) (2024-03-03T14:01:03Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Entangled View-Epipolar Information Aggregation for Generalizable Neural
Radiance Fields [28.549053233615382]
一般化可能なNeRFは、新しいシーンにまたがる新しいビューを合成することができ、バニラのNeRFでシーン固有のリトレーニングを不要にする。
EVE-NeRFと呼ばれるエンタングルビュー・エピポーラ情報集約手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:35:00Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - Visual SLAM with Graph-Cut Optimized Multi-Plane Reconstruction [11.215334675788952]
本稿では,インスタンス平面セグメンテーションネットワークからのキューを用いたポーズ推定とマッピングを改善する意味平面SLAMシステムを提案する。
メインストリームのアプローチはRGB-Dセンサーを使用するが、そのようなシステムを備えた単眼カメラを使うことは、ロバストデータアソシエーションや正確な幾何モデルフィッティングといった課題に直面している。
論文 参考訳(メタデータ) (2021-08-09T18:16:08Z) - Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。
我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。
SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-07-04T09:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。