論文の概要: DoubleTake: Geometry Guided Depth Estimation
- arxiv url: http://arxiv.org/abs/2406.18387v1
- Date: Wed, 26 Jun 2024 14:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:09:50.419132
- Title: DoubleTake: Geometry Guided Depth Estimation
- Title(参考訳): DoubleTake: 幾何学ガイドによる深さ推定
- Authors: Mohamed Sayed, Filippo Aleotti, Jamie Watson, Zawar Qureshi, Guillermo Garcia-Hernando, Gabriel Brostow, Sara Vicente, Michael Firman,
- Abstract要約: RGB画像の列から深度を推定することは、基本的なコンピュータビジョンタスクである。
本稿では,現在のカメラ位置から深度マップとして描画された,ボリューム特徴と先行幾何学のヒントを組み合わせた再構成手法を提案する。
本手法は, オフライン・インクリメンタルな評価シナリオにおいて, 対話的な速度, 最先端の深度推定, および3次元シーンで動作可能であることを示す。
- 参考スコア(独自算出の注目度): 17.464549832122714
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating depth from a sequence of posed RGB images is a fundamental computer vision task, with applications in augmented reality, path planning etc. Prior work typically makes use of previous frames in a multi view stereo framework, relying on matching textures in a local neighborhood. In contrast, our model leverages historical predictions by giving the latest 3D geometry data as an extra input to our network. This self-generated geometric hint can encode information from areas of the scene not covered by the keyframes and it is more regularized when compared to individual predicted depth maps for previous frames. We introduce a Hint MLP which combines cost volume features with a hint of the prior geometry, rendered as a depth map from the current camera location, together with a measure of the confidence in the prior geometry. We demonstrate that our method, which can run at interactive speeds, achieves state-of-the-art estimates of depth and 3D scene reconstruction in both offline and incremental evaluation scenarios.
- Abstract(参考訳): 提案されたRGBイメージのシーケンスから深さを推定することは、拡張現実や経路計画などの応用を含む、基本的なコンピュータビジョンタスクである。
以前の作業は通常、局所的な近所のテクスチャに合わせて、マルチビューステレオフレームワークで以前のフレームを使用する。
対照的に、我々のモデルは、最新の3次元幾何学データを我々のネットワークに付加的な入力として与えることで、過去の予測を活用する。
この自己生成幾何学的ヒントは、キーフレームがカバーしていないシーンのエリアから情報を符号化することができ、以前のフレームの予測深度マップと比較してより規則化されたものである。
我々は,Hint MLPを導入し,既存のカメラ位置からの奥行きマップとしてレンダリングされた,コスト容積特徴と先行幾何学のヒントを組み合わせ,先行幾何学の信頼性を測る。
対話的な速度で動作可能な本手法は,オフラインおよびインクリメンタルな評価シナリオにおいて,最先端の深度推定と3次元シーン再構成を実現する。
関連論文リスト
- Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - GeoFill: Reference-Based Image Inpainting of Scenes with Complex
Geometry [40.68659515139644]
参照誘導画像描画は、他の参照画像からのコンテンツを活用して画像画素を復元する。
我々は、単眼深度推定を利用して、カメラ間の相対的なポーズを予測し、その基準画像を異なる3次元再投影により目標に整列させる。
提案手法は,RealEstate10KとMannequinChallengeの両方のデータセットに対して,大規模なベースライン,複雑な幾何学,極端なカメラモーションによる最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T12:17:13Z) - TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view
Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。
ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。
TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文 参考訳(メタデータ) (2021-11-14T19:01:02Z) - Learning to Detect 3D Reflection Symmetry for Single-View Reconstruction [32.14605731030579]
単一のRGB画像からの3D再構成は、コンピュータビジョンにおいて難しい問題である。
従来の手法は通常データ駆動であり、不正確な3次元形状の復元と限定的な一般化能力をもたらす。
本稿では,人造物体によく見られる反射対称性の鏡面を初めて検出し,その対称性の画素内対応を見いだして深度マップを予測する。
論文 参考訳(メタデータ) (2020-06-17T17:58:59Z) - Consistent Video Depth Estimation [57.712779457632024]
モノクロ映像中の全画素に対して, 密度, 幾何的に整合した深度を再構成するアルゴリズムを提案する。
動画中の画素の幾何的制約を確立するために、従来の動きから再構成した構造を利用する。
我々のアルゴリズムは、手持ちの映像をある程度のダイナミックな動きで処理することができる。
論文 参考訳(メタデータ) (2020-04-30T17:59:26Z) - Atlas: End-to-End 3D Scene Reconstruction from Posed Images [13.154808583020229]
RGB画像の集合からTSDF(truncated signed distance function)を直接回帰することにより,シーンのエンドツーエンドな3D再構成手法を提案する。
2D CNNは、各画像から特徴を独立して抽出し、その特徴をバックプロジェクションし、ボクセルボリュームに蓄積する。
3D CNNは蓄積した特徴を洗練し、TSDF値を予測する。
論文 参考訳(メタデータ) (2020-03-23T17:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。