論文の概要: MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
- arxiv url: http://arxiv.org/abs/2601.22054v1
- Date: Thu, 29 Jan 2026 17:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.063413
- Title: MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
- Title(参考訳): MetricAnything: ノイズのある不均一ソースによるメトリック深さ事前トレーニング
- Authors: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen,
- Abstract要約: Metric Anythingは、メートル法深度推定のためのシンプルでスケーラブルな事前トレーニングフレームワークである。
手作業によるプロンプトなしで、ノイズの多い多様な3Dソースからメトリクスの深さを学習する。
Metric Anythingは、現代的な基礎モデルを動かすのと同じスケーリング法則の恩恵を受けることができることを示す。
- 参考スコア(独自算出の注目度): 25.21242040780486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.
- Abstract(参考訳): スケールは近年の視覚基礎モデルの進歩に力を入れているが、異種センサノイズ、カメラ依存バイアス、ノイズの多い3Dデータにおける計量曖昧さのために、このパラダイムをメートル法深さ推定に拡張することは依然として困難である。
私たちはMetric Anythingという,手作業によるプロンプトやカメラ固有のモデリング,タスク固有のアーキテクチャを使わずに,ノイズの多い多様な3Dソースからメトリクスの深さを学習する,シンプルでスケーラブルな事前トレーニングフレームワークを紹介します。
Sparse Metric Promptは、センサーやカメラのバイアスから空間的推論を分離する普遍的なインターフェースとして機能する。
1万台のカメラモデルにまたがる3Dデータを再構成、キャプチャ、レンダリングする約2000万枚の画像深度ペアを用いて、距離深度トラックにおける最初の明確なスケーリングトレンドを実証した。
プレトレーニングされたモデルは、深度完了、超解像、レーダーカメラ融合などのプロンプト駆動のタスクに優れ、蒸留されたプロンプトフリーの学生は、モノクロ深度推定、カメラ固有のリカバリ、シングル/マルチビューメトリック3D再構成、VLA計画の最先端結果を達成する。
また,事前学習したメトリックアシングのViTをビジュアルエンコーダとして使用することにより,空間知能における多モーダル大言語モデルの性能が著しく向上することを示す。
これらの結果から, 計量深度推定は, 現代基礎モデルを駆動するのと同じスケーリング法則の恩恵を受け, スケーラブルで効率的な実世界の計量知覚への新たな道筋を確立することが示唆された。
私たちはコミュニティリサーチをサポートするために、http://metric-anything.github.io/metric-anything-io/でMetricAnythingをオープンソース化しました。
関連論文リスト
- E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [74.28509379811084]
Metric3D v2は、ゼロショット距離深さと1枚の画像からの表面正規推定のための幾何学的基礎モデルである。
距離深度推定と表面正規度推定の両方の解を提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2024-03-22T02:30:46Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。