論文の概要: MEDeA: Multi-view Efficient Depth Adjustment
- arxiv url: http://arxiv.org/abs/2406.12048v1
- Date: Mon, 17 Jun 2024 19:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:07:10.980400
- Title: MEDeA: Multi-view Efficient Depth Adjustment
- Title(参考訳): MEDeA: マルチビュー効率の良い深さ調整
- Authors: Mikhail Artemyev, Anna Vorontsova, Anna Sokolova, Alexander Limonov,
- Abstract要約: MEDeAは、既存のテスト時間アプローチよりも桁違いに高速な効率的な多視点テスト時間深度調整法である。
提案手法は, TUM RGB-D, 7Scenes, ScanNet のベンチマークに新たな最先端性を設定し,ARKitScenes データセットから取得したスマートフォンデータの処理に成功している。
- 参考スコア(独自算出の注目度): 45.90423821963144
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The majority of modern single-view depth estimation methods predict relative depth and thus cannot be directly applied in many real-world scenarios, despite impressive performance in the benchmarks. Moreover, single-view approaches cannot guarantee consistency across a sequence of frames. Consistency is typically addressed with test-time optimization of discrepancy across views; however, it takes hours to process a single scene. In this paper, we present MEDeA, an efficient multi-view test-time depth adjustment method, that is an order of magnitude faster than existing test-time approaches. Given RGB frames with camera parameters, MEDeA predicts initial depth maps, adjusts them by optimizing local scaling coefficients, and outputs temporally-consistent depth maps. Contrary to test-time methods requiring normals, optical flow, or semantics estimation, MEDeA produces high-quality predictions with a depth estimation network solely. Our method sets a new state-of-the-art on TUM RGB-D, 7Scenes, and ScanNet benchmarks and successfully handles smartphone-captured data from ARKitScenes dataset.
- Abstract(参考訳): 現代の単一視点深度推定手法の大多数は相対的な深さを予測しており、ベンチマークで顕著な性能を示したにもかかわらず、多くの実世界のシナリオでは直接適用できない。
さらに、単一ビューアプローチは、一連のフレーム間の一貫性を保証することはできない。
一貫性は通常、ビュー間の不一致をテスト時の最適化で対処するが、単一のシーンを処理するのに数時間かかる。
本稿では,従来のテスト時間手法よりもはるかに高速な多視点テスト時間深度補正手法であるMEDeAを提案する。
カメラパラメータを持つRGBフレームが与えられた場合、MEDeAは初期深度マップを予測し、局所スケーリング係数を最適化して調整し、時間的に一貫性のある深度マップを出力する。
MEDeAは、正規化や光フロー、セマンティックス推定を必要とするテスト時間法とは対照的に、深度推定ネットワークのみで高品質な予測を行う。
提案手法は, TUM RGB-D, 7Scenes, ScanNet のベンチマークに新たな最先端性を設定し,ARKitScenes データセットから取得したスマートフォンデータの処理に成功している。
関連論文リスト
- InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds [91.77050739918037]
スパース画像からの新しいビュー合成(NVS)は3次元コンピュータビジョンにおいて大きく進歩している。
これはStructure-from-Motion (SfM) を用いたカメラパラメータの正確な初期推定に依存する
本研究では,スパースビュー画像から堅牢なNVSを向上するための,新規で効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - Metrically Scaled Monocular Depth Estimation through Sparse Priors for
Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。
このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。
この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-25T16:32:31Z) - ARAI-MVSNet: A multi-view stereo depth estimation network with adaptive
depth range and depth interval [19.28042366225802]
マルチビューステレオ(MVS)は幾何学的コンピュータビジョンの基本的な問題である。
適応的な全画素深度範囲と深度間隔を実現するために,新しい多段粗大化フレームワークを提案する。
我々のモデルは最先端の性能を達成し、競争一般化能力を得る。
論文 参考訳(メタデータ) (2023-08-17T14:52:11Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - VA-DepthNet: A Variational Approach to Single Image Depth Prediction [163.14849753700682]
VA-DepthNetは、単一画像深度予測問題に対する単純で効果的で正確なディープニューラルネットワークアプローチである。
本論文は,複数のベンチマークデータセットに対する広範囲な評価とアブレーション解析により提案手法の有用性を実証する。
論文 参考訳(メタデータ) (2023-02-13T17:55:58Z) - SfM-TTR: Using Structure from Motion for Test-Time Refinement of
Single-View Depth Networks [13.249453757295086]
本研究では,SfM-TTRと呼ばれる新しいテスト時間改善手法を提案する。
具体的には,テスト時間自己監督信号としてスパースSfM点雲を用いる。
以上の結果から,SfM-TTRをいくつかの最先端の自己教師型ネットワークに付加することで,その性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-24T12:02:13Z) - Multi-View Depth Estimation by Fusing Single-View Depth Probability with
Multi-View Geometry [25.003116148843525]
多視点幾何を用いて一視点深度確率を融合するフレームワークであるMaGNetを提案する。
MaGNet は ScanNet, 7-Scenes, KITTI で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-15T14:56:53Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。