論文の概要: BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives
- arxiv url: http://arxiv.org/abs/2306.04166v4
- Date: Mon, 15 Apr 2024 16:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:30:42.221266
- Title: BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives
- Title(参考訳): BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives
- Authors: Sainan Liu, Shan Lin, Jingpei Lu, Alexey Supikov, Michael Yip,
- Abstract要約: ロボットは2D画像から3D環境を理解することができる。
本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
- 参考スコア(独自算出の注目度): 6.431806897364565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations have become pivotal in robotic perception, enabling robots to comprehend 3D environments from 2D images. Given a set of camera poses and associated images, the models can be trained to synthesize novel, unseen views. To successfully navigate and interact in dynamic settings, robots require the understanding of their spatial surroundings driven by unassisted reconstruction of 3D scenes and camera poses from real-time video footage. Existing approaches like COLMAP and bundle-adjusting neural radiance field methods take hours to days to process due to the high computational demands of feature matching, dense point sampling, and training of a multi-layer perceptron structure with a large number of parameters. To address these challenges, we propose a framework called bundle-adjusting accelerated neural graphics primitives (BAA-NGP) which leverages accelerated sampling and hash encoding to expedite automatic pose refinement/estimation and 3D scene reconstruction. Experimental results demonstrate 10 to 20 x speed improvement compared to other bundle-adjusting neural radiance field methods without sacrificing the quality of pose estimation. The github repository can be found here https://github.com/IntelLabs/baa-ngp.
- Abstract(参考訳): ロボットは2D画像から3D環境を理解することができる。
カメラのポーズと関連する画像のセットを考えると、モデルは新しく見えないビューを合成するために訓練することができる。
ダイナミックな環境でうまくナビゲートし、対話するためには、ロボットはリアルタイムのビデオ映像から3Dシーンとカメラのポーズを非支援で再現することで、空間的な環境を理解する必要がある。
COLMAPやバンドル調整型ニューラルラディアンスフィールド法のような既存のアプローチは、特徴マッチング、高密度点サンプリング、および多数のパラメータを持つ多層パーセプトロン構造のトレーニングといった高い計算要求のために、処理に数時間から数日を要する。
これらの課題に対処するために,加速サンプリングとハッシュエンコーディングを利用して自動ポーズ補正/推定と3Dシーン再構成を行う,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
実験により,ポーズ推定の品質を犠牲にすることなく,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
githubリポジトリはhttps://github.com/IntelLabs/baa-ngp.comにある。
関連論文リスト
- Hybrid bundle-adjusting 3D Gaussians for view consistent rendering with pose optimization [2.8990883469500286]
本稿では,ポーズ最適化によるビュー一貫性レンダリングを実現するハイブリッドなバンドル調整3Dガウスモデルを提案する。
このモデルは、画像ベースとニューラルな3D表現を共同で抽出し、前方のシーン内でビュー一貫性のある画像とカメラのポーズを同時に生成する。
論文 参考訳(メタデータ) (2024-10-17T07:13:00Z) - BeNeRF: Neural Radiance Fields from a Single Blurry Image and Event Stream [11.183799667913815]
一つのぼやけた画像とそれに対応するイベントストリームからニューラル放射場(NeRF)を復元する可能性を示す。
本手法は暗黙的なニューラルシーンの表現を共同で学習し,カメラの動きを復元する。
論文 参考訳(メタデータ) (2024-07-02T11:28:22Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - NSLF-OL: Online Learning of Neural Surface Light Fields alongside
Real-time Incremental 3D Reconstruction [0.76146285961466]
そこで本研究では,視線方向の小さな方向に対応できるニューラルサーフェス光場モデルを提案する。
我々のモデルは、リアルタイムな3次元再構成の他に、シーケンシャルなデータストリームを共有入力として、ニューラルネットワーク光場(NSLF)をオンラインで学習する。
オンライントレーニングに加えて、可視化のためにデータストリームを完了した後のリアルタイムレンダリングも提供する。
論文 参考訳(メタデータ) (2023-04-29T15:41:15Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - BARF: Bundle-Adjusting Neural Radiance Fields [104.97810696435766]
不完全なカメラポーズからNeRFを訓練するためのバンドル調整ニューラルラジアンスフィールド(BARF)を提案します。
BARFは、ニューラルネットワークシーンの表現を効果的に最適化し、大きなカメラのポーズミスを同時に解決する。
これにより、未知のカメラポーズからの映像シーケンスのビュー合成とローカライズが可能になり、視覚ローカライズシステムのための新しい道を開くことができる。
論文 参考訳(メタデータ) (2021-04-13T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。