論文の概要: Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes
- arxiv url: http://arxiv.org/abs/2404.06050v2
- Date: Tue, 22 Oct 2024 13:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:24:29.097695
- Title: Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes
- Title(参考訳): 大規模シーンにおける単眼カメラにおける奥行き, 姿勢, 暗示シーンのインクリメンタル共同学習
- Authors: Tianchen Deng, Nailin Wang, Chongdi Wang, Shenghai Yuan, Jingchuan Wang, Danwei Wang, Weidong Chen,
- Abstract要約: 本研究では,正確な深度,ポーズ推定,大規模シーン再構築を実現するための,段階的な共同学習フレームワークを提案する。
視覚変換器を用いたネットワークをバックボーンとして採用し、スケール情報推定の性能を向上させる。
暗黙的なシーン表現の観点から、大規模シーン全体を複数の局所放射場として構成するインクリメンタルなシーン表現法を提案する。
- 参考スコア(独自算出の注目度): 17.055674468733244
- License:
- Abstract: Dense scene reconstruction for photo-realistic view synthesis has various applications, such as VR/AR, autonomous vehicles. However, most existing methods have difficulties in large-scale scenes due to three core challenges: \textit{(a) inaccurate depth input.} Accurate depth input is impossible to get in real-world large-scale scenes. \textit{(b) inaccurate pose estimation.} Most existing approaches rely on accurate pre-estimated camera poses. \textit{(c) insufficient scene representation capability.} A single global radiance field lacks the capacity to effectively scale to large-scale scenes. To this end, we propose an incremental joint learning framework, which can achieve accurate depth, pose estimation, and large-scale scene reconstruction. A vision transformer-based network is adopted as the backbone to enhance performance in scale information estimation. For pose estimation, a feature-metric bundle adjustment (FBA) method is designed for accurate and robust camera tracking in large-scale scenes. In terms of implicit scene representation, we propose an incremental scene representation method to construct the entire large-scale scene as multiple local radiance fields to enhance the scalability of 3D scene representation. Extended experiments have been conducted to demonstrate the effectiveness and accuracy of our method in depth estimation, pose estimation, and large-scale scene reconstruction.
- Abstract(参考訳): 写真リアルビュー合成のための高密度シーン再構築には、VR/AR、自動運転車など様々な応用がある。
しかし、既存のほとんどのメソッドは、次の3つの主要な課題のために、大規模なシーンで困難を抱えている。
(a)不正確な深さ入力。
実世界の大規模シーンでは正確な深度入力は不可能である。
\textit{
(b)不正確なポーズ推定
既存のアプローチのほとんどは、正確に推定されたカメラのポーズに依存しています。
\textit{
(c)シーン表現能力の不足。
一つのグローバルな放射界は、大規模シーンに効果的にスケールする能力に欠ける。
そこで本研究では,正確な深度,ポーズ推定,大規模シーン再構築を実現するための,段階的な共同学習フレームワークを提案する。
視覚変換器を用いたネットワークをバックボーンとして採用し、スケール情報推定の性能を向上させる。
ポーズ推定のためのFBA法は,大規模シーンにおける高精度でロバストなカメラトラッキングのために設計されている。
暗黙的なシーン表現の観点から、大規模シーン全体を複数の局所放射場として構成し、3次元シーン表現のスケーラビリティを高めるためのインクリメンタルなシーン表現法を提案する。
奥行き推定,ポーズ推定,大規模シーン再構築において,提案手法の有効性と精度を実証するための拡張実験を行った。
関連論文リスト
- KRONC: Keypoint-based Robust Camera Optimization for 3D Car Reconstruction [58.04846444985808]
KRONCは、オブジェクトに関する事前知識を活用して、セマンティックキーポイントを通してその表現を再構築することで、ビューポーズを推論する新しいアプローチである。
車両シーンに焦点を当てたKRONCは、キーポイントのバックプロジェクションを特異点に収束させることを目的とした光最適化問題の解として、ビューの位置を推定することができる。
論文 参考訳(メタデータ) (2024-09-09T08:08:05Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Progressively Optimized Local Radiance Fields for Robust View Synthesis [76.55036080270347]
本稿では,1つのカジュアルな映像から大規模シーンのラディアンス場を再構成するアルゴリズムを提案する。
未知のポーズを扱うために、カメラのポーズと放射場を漸進的に推定する。
大規模な非有界シーンを扱うために、時間窓内にフレームで訓練された新しい局所放射場を動的に割り当てる。
論文 参考訳(メタデータ) (2023-03-24T04:03:55Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - SCONE: Surface Coverage Optimization in Unknown Environments by
Volumetric Integration [23.95135709027516]
次回ベストビュー計算(NBV)は、ロボット工学における長年の問題である。
体積表現上でモンテカルロ積分により表面積を最大化できることが示される。
入力はLidarシステムのような深度センサーで収集された任意の大きさの点雲と、カメラのポーズでNBVを予測する。
論文 参考訳(メタデータ) (2022-08-22T17:04:14Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。