論文の概要: AnyDepth: Depth Estimation Made Easy
- arxiv url: http://arxiv.org/abs/2601.02760v1
- Date: Tue, 06 Jan 2026 06:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.83624
- Title: AnyDepth: Depth Estimation Made Easy
- Title(参考訳): AnyDepth: 深度推定が簡単になった
- Authors: Zeyu Ren, Zeyu Zhang, Wukai Li, Qingxiang Liu, Hao Tang,
- Abstract要約: 単眼深度推定は2次元画像から3次元シーンの深度情報を復元することを目的としている。
最近の研究は大きな進歩を遂げているが、大規模なデータセットや複雑なデコーダに依存しているため、効率と一般化能力は制限されている。
ゼロショット単眼深度推定のための軽量でデータ中心のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.853297988186682
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular depth estimation aims to recover the depth information of 3D scenes from 2D images. Recent work has made significant progress, but its reliance on large-scale datasets and complex decoders has limited its efficiency and generalization ability. In this paper, we propose a lightweight and data-centric framework for zero-shot monocular depth estimation. We first adopt DINOv3 as the visual encoder to obtain high-quality dense features. Secondly, to address the inherent drawbacks of the complex structure of the DPT, we design the Simple Depth Transformer (SDT), a compact transformer-based decoder. Compared to the DPT, it uses a single-path feature fusion and upsampling process to reduce the computational overhead of cross-scale feature fusion, achieving higher accuracy while reducing the number of parameters by approximately 85%-89%. Furthermore, we propose a quality-based filtering strategy to filter out harmful samples, thereby reducing dataset size while improving overall training quality. Extensive experiments on five benchmarks demonstrate that our framework surpasses the DPT in accuracy. This work highlights the importance of balancing model design and data quality for achieving efficient and generalizable zero-shot depth estimation. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
- Abstract(参考訳): 単眼深度推定は2次元画像から3次元シーンの深度情報を復元することを目的としている。
最近の研究は大きな進歩を遂げているが、大規模なデータセットや複雑なデコーダに依存しているため、効率と一般化能力は制限されている。
本稿では,ゼロショット単眼深度推定のための軽量でデータ中心のフレームワークを提案する。
まずDINOv3をビジュアルエンコーダとして採用し,高品質な高密度化を実現する。
第二に、DPTの複雑な構造に固有の欠点に対処するため、コンパクトトランスベースのデコーダであるSimple Depth Transformer (SDT) を設計する。
DPTと比較して、シングルパス機能融合とアップサンプリングプロセスを使用して、クロススケール機能融合の計算オーバーヘッドを低減し、パラメータの数を約85%-89%削減し、高い精度を達成する。
さらに,有害サンプルをフィルタリングする品質に基づくフィルタリング手法を提案する。
5つのベンチマークによる大規模な実験は、我々のフレームワークがDPTを精度で超越していることを示している。
この研究は、効率的で一般化可能なゼロショット深度推定を実現するために、モデル設計とデータ品質のバランスをとることの重要性を強調している。
コード:https://github.com/AIGeeksGroup/AnyDepth
Webサイト: https://aigeeksgroup.github.io/AnyDepth.com
関連論文リスト
- Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation [108.04354143020886]
本稿では、深度基礎モデルにプロンプトを導入し、Prompt Depth Anythingと呼ばれる計量深度推定のための新しいパラダイムを作成する。
低コストのLiDARを用いて、Depth Anythingモデルによる正確なメートル法深度出力を導出し、最大4K解像度を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:32:12Z) - Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。
KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - NeRF-Det++: Incorporating Semantic Cues and Perspective-aware Depth
Supervision for Indoor Multi-View 3D Detection [72.0098999512727]
NeRF-Detは、NeRFを用いた屋内マルチビュー3次元検出において、表現学習の強化による優れた性能を実現している。
セマンティックエンハンスメント(セマンティックエンハンスメント)、パースペクティブ・アウェア・サンプリング(パースペクティブ・アウェア・サンプリング)、および順序深度監視を含む3つのソリューションを提案する。
結果として得られたアルゴリズムであるNeRF-Det++は、ScanNetV2とAR KITScenesデータセットで魅力的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-22T11:48:06Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。