論文の概要: HybridDepth: Robust Depth Fusion for Mobile AR by Leveraging Depth from Focus and Single-Image Priors
- arxiv url: http://arxiv.org/abs/2407.18443v1
- Date: Fri, 26 Jul 2024 00:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 14:39:47.875632
- Title: HybridDepth: Robust Depth Fusion for Mobile AR by Leveraging Depth from Focus and Single-Image Priors
- Title(参考訳): HybridDepth: 焦点と単一画像からの深度を利用したモバイルAR用ロバスト深度融合
- Authors: Ashkan Ganj, Hang Su, Tian Guo,
- Abstract要約: 移動体ARのための頑健な深度推定パイプラインHYBRIDDEPTHを提案する。
スケールのあいまいさ、ハードウェア、一般化可能性など、モバイルARの深さ推定の課題に対処する。
HYBRIDDEPTHは、共通のデータセットにおいて、最先端(SOTA)モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 10.88048563201236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose HYBRIDDEPTH, a robust depth estimation pipeline that addresses the unique challenges of depth estimation for mobile AR, such as scale ambiguity, hardware heterogeneity, and generalizability. HYBRIDDEPTH leverages the camera features available on mobile devices. It effectively combines the scale accuracy inherent in Depth from Focus (DFF) methods with the generalization capabilities enabled by strong single-image depth priors. By utilizing the focal planes of a mobile camera, our approach accurately captures depth values from focused pixels and applies these values to compute scale and shift parameters for transforming relative depths into metric depths. We test our pipeline as an end-to-end system, with a newly developed mobile client to capture focal stacks, which are then sent to a GPU-powered server for depth estimation. Through comprehensive quantitative and qualitative analyses, we demonstrate that HYBRIDDEPTH not only outperforms state-of-the-art (SOTA) models in common datasets (DDFF12, NYU Depth v2) and a real-world AR dataset ARKitScenes but also demonstrates strong zero-shot generalization. For example, HYBRIDDEPTH trained on NYU Depth v2 achieves comparable performance on the DDFF12 to existing models trained on DDFF12. it also outperforms all the SOTA models in zero-shot performance on the ARKitScenes dataset. Additionally, we conduct a qualitative comparison between our model and the ARCore framework, demonstrating that our models output depth maps are significantly more accurate in terms of structural details and metric accuracy. The source code of this project is available at github.
- Abstract(参考訳): 本研究では,移動体ARにおける深度推定の独特な課題に対処する頑健な深度推定パイプラインHYBRIDDEPTHを提案する。
HYBRIDDEPTHは、モバイルデバイスで利用可能なカメラ機能を活用する。
これは、DFF(Depth from Focus)法に固有のスケール精度と、強い単一画像深度で実現された一般化能力とを効果的に組み合わせている。
移動カメラの焦点面を利用して焦点画素の奥行き値を正確に把握し,これらの値を計算尺度に適用し,相対深度を距離深度に変換するパラメータをシフトする。
パイプラインをエンドツーエンドシステムとしてテストし、新たに開発されたモバイルクライアントを使用して焦点スタックをキャプチャし、深さ推定のためにGPU駆動のサーバに送信する。
総合的な定量的および定性的な分析を通して、HYBRIDDEPTHは、共通のデータセット(DDFF12, NYU Depth v2)と現実世界のARデータセットARKitScenesにおいて、最先端(SOTA)モデルを上回るだけでなく、強力なゼロショットの一般化を示す。
例えば、NYU Depth v2でトレーニングされたHYBRIDDEPTHは、DDFF12でトレーニングされた既存のモデルとDDFF12で同等のパフォーマンスを達成する。
また、ARKitScenesデータセットのゼロショットパフォーマンスにおいて、すべてのSOTAモデルよりも優れています。
さらに、我々のモデルとARCoreフレームワークの質的な比較を行い、構造的詳細および計量的精度の観点から、我々のモデル出力深度マップが著しく正確であることを示す。
プロジェクトのソースコードはgithubで公開されている。
関連論文リスト
- DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - OGNI-DC: Robust Depth Completion with Optimization-Guided Neural Iterations [23.0962036039182]
OGNI(Optimization-Guided Neural Iterations)は深度補正のための新しいフレームワークである。
OGNI-DCは強力な一般化を示し、目に見えないデータセットのベースラインと、さまざまな空間レベルのベースラインを上回ります。
精度が高く、NYUv2とKITTIベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-17T16:30:29Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - GEDepth: Ground Embedding for Monocular Depth Estimation [4.95394574147086]
本稿では,画像からカメラパラメータを分離する新たな接地モジュールを提案する。
地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。
実験の結果,本手法は一般的なベンチマークで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-18T17:56:06Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Uncertainty Guided Depth Fusion for Spike Camera [49.41822923588663]
スパイクカメラのための単分子およびステレオ深度推定ネットワークの予測を融合させる新しい不確かさ誘導深度融合(UGDF)フレームワークを提案する。
我々のフレームワークは、ステレオスパイク深さ推定がより近い範囲でより良い結果をもたらすという事実に動機づけられている。
従来のカメラ深度推定よりもスパイク深度推定の利点を示すため、我々はCitySpike20Kというスパイク深度データセットに貢献する。
論文 参考訳(メタデータ) (2022-08-26T13:04:01Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Robust Consistent Video Depth Estimation [65.53308117778361]
本稿では,単眼映像からカメラのカメラポーズと密集した深度マップを推定するアルゴリズムを提案する。
本手法は,(1)低周波大規模アライメントのためのフレキシブルな変形-スプラインと(2)細部奥行き詳細の高周波アライメントのための幾何認識深度フィルタリングとを組み合わせた手法である。
従来の手法とは対照的に, カメラのポーズを入力として必要とせず, かなりの音量, 揺動, 動きのぼやき, 転がりシャッター変形を含む携帯のハンドヘルドキャプチャに頑健な再構成を実現する。
論文 参考訳(メタデータ) (2020-12-10T18:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。