論文の概要: Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation
- arxiv url: http://arxiv.org/abs/2206.01916v1
- Date: Sat, 4 Jun 2022 06:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:24:26.520859
- Title: Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation
- Title(参考訳): Nerfels: カメラポーズ推定を改善するためのレンダリング可能なニューラルコード
- Authors: Gil Avraham, Julian Straub, Tianwei Shen, Tsun-Yi Yang, Hugo Germain,
Chris Sweeney, Vasileios Balntas, David Novotny, Daniel DeTone, Richard
Newcombe
- Abstract要約: 提案する3次元シーン表現Nerfelsは局所的に密度が高いが,世界規模では疎い。
我々は、レンダリング可能なコードでシーンに依存しないローカルな3Dパッチを表現するために、機能駆動のアプローチを採用する。
我々のモデルは、既存の最先端の手作り・学習型特徴推定装置に組み込むことができ、広いカメラベースラインシナリオでScanNetを評価する際に、性能が向上する。
- 参考スコア(独自算出の注目度): 21.111919718001907
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a framework that combines traditional keypoint-based
camera pose optimization with an invertible neural rendering mechanism. Our
proposed 3D scene representation, Nerfels, is locally dense yet globally
sparse. As opposed to existing invertible neural rendering systems which
overfit a model to the entire scene, we adopt a feature-driven approach for
representing scene-agnostic, local 3D patches with renderable codes. By
modelling a scene only where local features are detected, our framework
effectively generalizes to unseen local regions in the scene via an optimizable
code conditioning mechanism in the neural renderer, all while maintaining the
low memory footprint of a sparse 3D map representation. Our model can be
incorporated to existing state-of-the-art hand-crafted and learned local
feature pose estimators, yielding improved performance when evaluating on
ScanNet for wide camera baseline scenarios.
- Abstract(参考訳): 本稿では,従来のキーポイント方式のカメラポーズ最適化と,可逆的なニューラルレンダリング機構を組み合わせたフレームワークを提案する。
提案する3次元シーン表現Nerfelsは局所的に密度が高いが,世界規模では疎い。
シーン全体に対してモデルにオーバーフィットする既存の非可逆的ニューラルネットワークとは対照的に、シーンに依存しないローカルな3Dパッチをレンダリング可能なコードで表現するための特徴駆動型アプローチを採用しています。
局所的な特徴が検出されるシーンのみをモデル化することで、ニューラルネットワークレンダラーの最適化可能なコードコンディショニング機構を介して、シーン内の未認識のローカル領域に効果的に一般化し、スパースな3dマップ表現のメモリフットプリントを維持できる。
我々のモデルは,既存の手作りで学習済みのローカル特徴ポーズ推定装置に組み込むことができ,カメラベースラインの広いシナリオに対してScanNetを評価する際に,性能が向上する。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
3D Gaussian Splatting (3DGS) は、空間的特徴を持つ3次元幾何学とシーンの外観の両方をコンパクトに符号化することができる。
モデルの空間的理解を改善するために,高密度キーポイント記述子を3DGSに蒸留することを提案する。
提案手法はNeRFMatchやPNeRFLocなど,最先端のニューラル・レンダー・ポース(NRP)法を超越した手法である。
論文 参考訳(メタデータ) (2024-09-24T23:18:32Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM [51.21564182169607]
Newtonは、リアルタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心のマッピング手法である。
本手法は,複数のニューラルネットワークを用いてシーンを表現することで,ループクロージャとシーン境界更新を用いたカメラポーズ更新を可能にする。
実験の結果,既存の世界中心型ニューラルネットワークSLAMシステムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-23T20:22:01Z) - MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。
驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。
以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文 参考訳(メタデータ) (2022-07-21T21:21:10Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - SpinNet: Learning a General Surface Descriptor for 3D Point Cloud
Registration [57.28608414782315]
ローカルな特徴を抽出するために、SpinNetと呼ばれる新しい、概念的にはシンプルで、ニューラルなアーキテクチャを導入する。
屋内と屋外の両方の実験では、SpinNetが既存の最先端技術より優れていることが示されている。
論文 参考訳(メタデータ) (2020-11-24T15:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。