論文の概要: HybridDepth: Robust Depth Fusion for Mobile AR by Leveraging Depth from Focus and Single-Image Priors
- arxiv url: http://arxiv.org/abs/2407.18443v1
- Date: Fri, 26 Jul 2024 00:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:39:47.875632
- Title: HybridDepth: Robust Depth Fusion for Mobile AR by Leveraging Depth from Focus and Single-Image Priors
- Title(参考訳): HybridDepth: 焦点と単一画像からの深度を利用したモバイルAR用ロバスト深度融合
- Authors: Ashkan Ganj, Hang Su, Tian Guo,
- Abstract要約: 移動体ARのための頑健な深度推定パイプラインHYBRIDDEPTHを提案する。
スケールのあいまいさ、ハードウェア、一般化可能性など、モバイルARの深さ推定の課題に対処する。
HYBRIDDEPTHは、共通のデータセットにおいて、最先端(SOTA)モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.88048563201236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose HYBRIDDEPTH, a robust depth estimation pipeline that addresses the unique challenges of depth estimation for mobile AR, such as scale ambiguity, hardware heterogeneity, and generalizability. HYBRIDDEPTH leverages the camera features available on mobile devices. It effectively combines the scale accuracy inherent in Depth from Focus (DFF) methods with the generalization capabilities enabled by strong single-image depth priors. By utilizing the focal planes of a mobile camera, our approach accurately captures depth values from focused pixels and applies these values to compute scale and shift parameters for transforming relative depths into metric depths. We test our pipeline as an end-to-end system, with a newly developed mobile client to capture focal stacks, which are then sent to a GPU-powered server for depth estimation. Through comprehensive quantitative and qualitative analyses, we demonstrate that HYBRIDDEPTH not only outperforms state-of-the-art (SOTA) models in common datasets (DDFF12, NYU Depth v2) and a real-world AR dataset ARKitScenes but also demonstrates strong zero-shot generalization. For example, HYBRIDDEPTH trained on NYU Depth v2 achieves comparable performance on the DDFF12 to existing models trained on DDFF12. it also outperforms all the SOTA models in zero-shot performance on the ARKitScenes dataset. Additionally, we conduct a qualitative comparison between our model and the ARCore framework, demonstrating that our models output depth maps are significantly more accurate in terms of structural details and metric accuracy. The source code of this project is available at github.
- Abstract(参考訳): 本研究では,移動体ARにおける深度推定の独特な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。
HYBRIDDEPTHは、モバイルデバイスで利用可能なカメラ機能を活用する。
これは、DFF(Depth from Focus)法に固有のスケール精度と、強い単一画像深度で実現された一般化能力とを効果的に組み合わせている。
移動カメラの焦点面を利用して焦点画素の奥行き値を正確に把握し,これらの値を計算尺度に適用し,相対深度を距離深度に変換するパラメータをシフトする。
パイプラインをエンドツーエンドシステムとしてテストし、新たに開発されたモバイルクライアントを使用して焦点スタックをキャプチャし、深さ推定のためにGPU駆動のサーバに送信する。
総合的な定量的および定性的な分析を通して、HYBRIDDEPTHは、共通のデータセット(DDFF12, NYU Depth v2)と現実世界のARデータセットARKitScenesにおいて、最先端(SOTA)モデルを上回るだけでなく、強力なゼロショットの一般化を示す。
例えば、NYU Depth v2でトレーニングされたHYBRIDDEPTHは、DDFF12でトレーニングされた既存のモデルとDDFF12で同等のパフォーマンスを達成する。
また、ARKitScenesデータセットのゼロショットパフォーマンスにおいて、すべてのSOTAモデルよりも優れています。
さらに、我々のモデルとARCoreフレームワークの質的な比較を行い、構造的詳細および計量的精度の観点から、我々のモデル出力深度マップが著しく正確であることを示す。
プロジェクトのソースコードはgithubで公開されている。
関連論文リスト
- Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation [108.04354143020886]
本稿では、深度基礎モデルにプロンプトを導入し、Prompt Depth Anythingと呼ばれる計量深度推定のための新しいパラダイムを作成する。
低コストのLiDARを用いて、Depth Anythingモデルによる正確なメートル法深度出力を導出し、最大4K解像度を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:32:12Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - Depth Pro: Sharp Monocular Metric Depth in Less Than a Second [45.6690958201871]
ゼロショット距離単眼深度推定のための基礎モデルを提案する。
我々のモデルであるDepth Proは、非並列のシャープネスと高周波の詳細で高分解能深度マップを合成する。
標準GPUで0.3秒で2.25メガピクセルの深度マップを生成する。
論文 参考訳(メタデータ) (2024-10-02T22:42:20Z) - OGNI-DC: Robust Depth Completion with Optimization-Guided Neural Iterations [23.0962036039182]
OGNI(Optimization-Guided Neural Iterations)は深度補正のための新しいフレームワークである。
OGNI-DCは強力な一般化を示し、目に見えないデータセットのベースラインと、さまざまな空間レベルのベースラインを上回ります。
精度が高く、NYUv2とKITTIベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-17T16:30:29Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - Efficient Depth Completion Using Learned Bases [94.0808155168311]
深度補正のための新しい大域的幾何制約を提案する。
低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。
論文 参考訳(メタデータ) (2020-12-02T11:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。