論文の概要: MultiDepth: Multi-Sample Priors for Refining Monocular Metric Depth Estimations in Indoor Scenes
- arxiv url: http://arxiv.org/abs/2411.01048v1
- Date: Fri, 01 Nov 2024 21:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:08.643404
- Title: MultiDepth: Multi-Sample Priors for Refining Monocular Metric Depth Estimations in Indoor Scenes
- Title(参考訳): マルチディープス:屋内シーンにおける単眼メートル深度推定の精度向上のためのマルチサンプルプリミティブ
- Authors: Sanghyun Byun, Jacob Song, Woo Seong Chung,
- Abstract要約: 既存のモデルは、シーン内のオブジェクトの境界周波数やシーンの複雑さといった要因に敏感である。
本稿では,事前学習したMMDEモデルを用いて,画像のサンプルと初期深度マップ予測を併用した解を提案する。
既存の反復深度補正技術と比較して、MultiDepthはアーキテクチャの一部として通常の地図予測を採用していない。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Monocular metric depth estimation (MMDE) is a crucial task to solve for indoor scene reconstruction on edge devices. Despite this importance, existing models are sensitive to factors such as boundary frequency of objects in the scene and scene complexity, failing to fully capture many indoor scenes. In this work, we propose to close this gap through the task of monocular metric depth refinement (MMDR) by leveraging state-of-the-art MMDE models. MultiDepth proposes a solution by taking samples of the image along with the initial depth map prediction made by a pre-trained MMDE model. Compared to existing iterative depth refinement techniques, MultiDepth does not employ normal map prediction as part of its architecture, effectively lowering the model size and computation overhead while outputting impactful changes from refining iterations. MultiDepth implements a lightweight encoder-decoder architecture for the refinement network, processing multiple samples from the given image, including segmentation masking. We evaluate MultiDepth on four datasets and compare them to state-of-the-art methods to demonstrate its effective refinement with minimal overhead, displaying accuracy improvement upward of 45%.
- Abstract(参考訳): 単分子距離深度推定(MMDE)は,エッジデバイス上での屋内シーン再構築において重要な課題である。
この重要性にもかかわらず、既存のモデルは、シーン内のオブジェクトの境界周波数やシーンの複雑さといった要因に敏感であり、多くの屋内シーンを完全にキャプチャすることができない。
本研究では,現状のMMDEモデルを活用することで,モノクロメートル法深度改善(MMDR)の課題を通じて,このギャップを埋めることを提案する。
MultiDepthは、事前訓練されたMMDEモデルによって作成された初期深度マップ予測とともに、画像のサンプルを抽出して解を提案する。
既存の反復深度改善技術と比較して、MultiDepthはアーキテクチャの一部として通常のマップ予測を採用せず、モデルサイズと計算オーバーヘッドを効果的に低減し、繰り返しの修正から影響のある変更を出力する。
MultiDepthは、精細化ネットワークのための軽量エンコーダデコーダアーキテクチャを実装し、セグメンテーションマスキングを含む、所定の画像から複数のサンプルを処理する。
我々は、4つのデータセット上でMultiDepthを評価し、それらを最先端の手法と比較し、その効果的な改善を最小限のオーバーヘッドで実証し、精度を45%以上向上させる。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Multi-Camera Collaborative Depth Prediction via Consistent Structure
Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。
カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。
DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-05T03:44:34Z) - RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。
RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文 参考訳(メタデータ) (2022-07-25T08:49:59Z) - Multi-View Depth Estimation by Fusing Single-View Depth Probability with
Multi-View Geometry [25.003116148843525]
多視点幾何を用いて一視点深度確率を融合するフレームワークであるMaGNetを提案する。
MaGNet は ScanNet, 7-Scenes, KITTI で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-15T14:56:53Z) - Differentiable Diffusion for Dense Depth Estimation from Multi-view
Images [31.941861222005603]
深度マップへの拡散がRGB監督からの多視点再投射誤差を最小限に抑えるように、細かな点集合を最適化することにより、深度を推定する手法を提案する。
また,複雑なシーン再構成に必要な50k以上のポイントを同時に最適化できる効率的な最適化ルーチンを開発した。
論文 参考訳(メタデータ) (2021-06-16T16:17:34Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。