論文の概要: Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth
- arxiv url: http://arxiv.org/abs/2202.01470v4
- Date: Thu, 6 Apr 2023 03:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 18:19:32.727959
- Title: Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth
- Title(参考訳): 局所的な一眼レフ映像の3次元再構成に向けて
- Authors: Guangkai Xu, Wei Yin, Hao Chen, Chunhua Shen, Kai Cheng, Feng Wu, Feng
Zhao
- Abstract要約: 映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
- 参考スコア(独自算出の注目度): 90.33296913575818
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing monocular depth estimation methods have achieved excellent
robustness in diverse scenes, but they can only retrieve affine-invariant
depth, up to an unknown scale and shift. However, in some video-based scenarios
such as video depth estimation and 3D scene reconstruction from a video, the
unknown scale and shift residing in per-frame prediction may cause the depth
inconsistency. To solve this problem, we propose a locally weighted linear
regression method to recover the scale and shift with very sparse anchor
points, which ensures the scale consistency along consecutive frames. Extensive
experiments show that our method can boost the performance of existing
state-of-the-art approaches by 50% at most over several zero-shot benchmarks.
Besides, we merge over 6.3 million RGBD images to train strong and robust depth
models. Our produced ResNet50-backbone model even outperforms the
state-of-the-art DPT ViT-Large model. Combining with geometry-based
reconstruction methods, we formulate a new dense 3D scene reconstruction
pipeline, which benefits from both the scale consistency of sparse points and
the robustness of monocular methods. By performing the simple per-frame
prediction over a video, the accurate 3D scene shape can be recovered.
- Abstract(参考訳): 既存の単眼深度推定法は様々な場面で優れたロバスト性を達成しているが、それらは未知のスケールとシフトまでアフィン不変深さのみを取得することができる。
しかし,映像の深度推定や映像からの3次元シーン再構成といったビデオベースのシナリオでは,フレームごとの予測に係わる未知のスケールやシフトが,奥行きの不整合を引き起こす可能性がある。
この問題を解決するために, 局所重み付き線形回帰法を提案し, 連続するフレームに沿ったスケールの整合性を確保するために, 非常に疎いアンカーポイントでスケールとシフトを復元する。
複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができることを示す。
さらに,630万以上のrgbdイメージをマージして,堅牢で堅牢な深さモデルをトレーニングしています。
resnet50-backboneモデルは最先端のdpt vit-largeモデルよりも優れています。
幾何学に基づく再構成法と組み合わせることで,疎点のスケール一貫性と単眼法のロバスト性の両方を活かした,新しい高密度3次元シーン復元パイプラインを考案した。
ビデオ上で簡単なフレーム単位の予測を行うことで、正確な3Dシーン形状を復元することができる。
関連論文リスト
- FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z) - Real-time dense 3D Reconstruction from monocular video data captured by
low-cost UAVs [0.3867363075280543]
リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。
ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。
建物周辺を斜め視で飛行する無人航空機(UAV)の自己動作を利用して、選択された画像のカメラ軌道と深度の両方を、十分な新規な内容で推定します。
論文 参考訳(メタデータ) (2021-04-21T13:12:17Z) - Learning monocular 3D reconstruction of articulated categories from
motion [39.811816510186475]
ビデオの自己スーパービジョンは、動きに基づくサイクルロスによる連続した3次元再構成の一貫性を強要する。
少数の局所的学習可能なハンドルの変位を介して3D表面を制御する3Dテンプレート変形の解釈可能なモデルを紹介します。
多様な形状, 視点, テクスチャを具体化して, 複数の対象カテゴリーのテクスチャを再現する。
論文 参考訳(メタデータ) (2021-03-30T13:50:27Z) - Learning to Recover 3D Scene Shape from a Single Image [98.20106822614392]
まず,未知のスケールまで深さを予測し,単一の単眼画像からシフトする2段階フレームワークを提案する。
そして、3dポイントクラウドエンコーダを使って深度シフトと焦点距離を予測し、リアルな3dシーンの形状を復元します。
論文 参考訳(メタデータ) (2020-12-17T02:35:13Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。