論文の概要: Depth Anything 3: Recovering the Visual Space from Any Views
- arxiv url: http://arxiv.org/abs/2511.10647v1
- Date: Fri, 14 Nov 2025 02:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.975322
- Title: Depth Anything 3: Recovering the Visual Space from Any Views
- Title(参考訳): Depth Anything 3: あらゆるビューから視覚空間を復元する
- Authors: Haotong Lin, Sili Chen, Junhao Liew, Donny Y. Chen, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang,
- Abstract要約: 任意の数の視覚入力から空間的に一貫した幾何を予測するモデルとして,Depth Anything 3 (DA3) を提案する。
我々は、カメラのポーズ推定、任意のビュー幾何学、視覚レンダリングを含む新しいビジュアルジオメトリ・ベンチマークを構築した。
このベンチマークでは、DA3は全てのタスクをまたいで新しい最先端を設定し、以前のSOTA VGGTを平均44.3%の精度で上回り、幾何学的精度は25.1%である。
- 参考スコア(独自算出の注目度): 64.12492264286522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Depth Anything 3 (DA3), a model that predicts spatially consistent geometry from an arbitrary number of visual inputs, with or without known camera poses. In pursuit of minimal modeling, DA3 yields two key insights: a single plain transformer (e.g., vanilla DINO encoder) is sufficient as a backbone without architectural specialization, and a singular depth-ray prediction target obviates the need for complex multi-task learning. Through our teacher-student training paradigm, the model achieves a level of detail and generalization on par with Depth Anything 2 (DA2). We establish a new visual geometry benchmark covering camera pose estimation, any-view geometry and visual rendering. On this benchmark, DA3 sets a new state-of-the-art across all tasks, surpassing prior SOTA VGGT by an average of 44.3% in camera pose accuracy and 25.1% in geometric accuracy. Moreover, it outperforms DA2 in monocular depth estimation. All models are trained exclusively on public academic datasets.
- Abstract(参考訳): 本稿では、任意の数の視覚的入力から空間的に一貫した幾何を予測するモデル、Depth Anything 3(DA3)について述べる。
最小限のモデリングを追求すると、DA3は2つの重要な洞察を得る: 単一のプレーントランスフォーマー(例えば、バニラDINOエンコーダ)はアーキテクチャの専門化なしにバックボーンとして十分であり、特異深度線予測ターゲットは複雑なマルチタスク学習の必要性を排除している。
教師と学生の学習パラダイムを通じて、このモデルは、Depth Anything 2 (DA2) と同等の詳細と一般化のレベルを達成する。
我々は、カメラのポーズ推定、任意のビュー幾何学、視覚レンダリングを含む新しいビジュアルジオメトリ・ベンチマークを構築した。
このベンチマークでは、DA3は全てのタスクに新しい最先端を設定し、以前のSOTA VGGTを平均44.3%の精度で上回り、幾何学的精度は25.1%である。
さらに、単分子深度推定においてDA2を上回っている。
すべてのモデルは、公開学術データセットにのみ訓練される。
関連論文リスト
- E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Weakly-supervised Cross-view 3D Human Pose Estimation [16.045255544594625]
弱教師付きクロスビュー3次元ポーズ推定のための簡易かつ効果的なパイプラインを提案する。
本手法は,最先端の性能を弱い教師付きで達成することができる。
本手法を標準ベンチマークデータセットHuman3.6Mで評価する。
論文 参考訳(メタデータ) (2021-05-23T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。