論文の概要: MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
- arxiv url: http://arxiv.org/abs/2601.22054v1
- Date: Thu, 29 Jan 2026 17:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.063413
- Title: MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources
- Title(参考訳): MetricAnything: ノイズのある不均一ソースによるメトリック深さ事前トレーニング
- Authors: Baorui Ma, Jiahui Yang, Donglin Di, Xuancheng Zhang, Jianxun Cui, Hao Li, Yan Xie, Wei Chen,
- Abstract要約: Metric Anythingは、メートル法深度推定のためのシンプルでスケーラブルな事前トレーニングフレームワークである。
手作業によるプロンプトなしで、ノイズの多い多様な3Dソースからメトリクスの深さを学習する。
Metric Anythingは、現代的な基礎モデルを動かすのと同じスケーリング法則の恩恵を受けることができることを示す。
- 参考スコア(独自算出の注目度): 25.21242040780486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling has powered recent advances in vision foundation models, yet extending this paradigm to metric depth estimation remains challenging due to heterogeneous sensor noise, camera-dependent biases, and metric ambiguity in noisy cross-source 3D data. We introduce Metric Anything, a simple and scalable pretraining framework that learns metric depth from noisy, diverse 3D sources without manually engineered prompts, camera-specific modeling, or task-specific architectures. Central to our approach is the Sparse Metric Prompt, created by randomly masking depth maps, which serves as a universal interface that decouples spatial reasoning from sensor and camera biases. Using about 20M image-depth pairs spanning reconstructed, captured, and rendered 3D data across 10000 camera models, we demonstrate-for the first time-a clear scaling trend in the metric depth track. The pretrained model excels at prompt-driven tasks such as depth completion, super-resolution and Radar-camera fusion, while its distilled prompt-free student achieves state-of-the-art results on monocular depth estimation, camera intrinsics recovery, single/multi-view metric 3D reconstruction, and VLA planning. We also show that using pretrained ViT of Metric Anything as a visual encoder significantly boosts Multimodal Large Language Model capabilities in spatial intelligence. These results show that metric depth estimation can benefit from the same scaling laws that drive modern foundation models, establishing a new path toward scalable and efficient real-world metric perception. We open-source MetricAnything at http://metric-anything.github.io/metric-anything-io/ to support community research.
- Abstract(参考訳): スケールは近年の視覚基礎モデルの進歩に力を入れているが、異種センサノイズ、カメラ依存バイアス、ノイズの多い3Dデータにおける計量曖昧さのために、このパラダイムをメートル法深さ推定に拡張することは依然として困難である。
私たちはMetric Anythingという,手作業によるプロンプトやカメラ固有のモデリング,タスク固有のアーキテクチャを使わずに,ノイズの多い多様な3Dソースからメトリクスの深さを学習する,シンプルでスケーラブルな事前トレーニングフレームワークを紹介します。
Sparse Metric Promptは、センサーやカメラのバイアスから空間的推論を分離する普遍的なインターフェースとして機能する。
1万台のカメラモデルにまたがる3Dデータを再構成、キャプチャ、レンダリングする約2000万枚の画像深度ペアを用いて、距離深度トラックにおける最初の明確なスケーリングトレンドを実証した。
プレトレーニングされたモデルは、深度完了、超解像、レーダーカメラ融合などのプロンプト駆動のタスクに優れ、蒸留されたプロンプトフリーの学生は、モノクロ深度推定、カメラ固有のリカバリ、シングル/マルチビューメトリック3D再構成、VLA計画の最先端結果を達成する。
また,事前学習したメトリックアシングのViTをビジュアルエンコーダとして使用することにより,空間知能における多モーダル大言語モデルの性能が著しく向上することを示す。
これらの結果から, 計量深度推定は, 現代基礎モデルを駆動するのと同じスケーリング法則の恩恵を受け, スケーラブルで効率的な実世界の計量知覚への新たな道筋を確立することが示唆された。
私たちはコミュニティリサーチをサポートするために、http://metric-anything.github.io/metric-anything-io/でMetricAnythingをオープンソース化しました。
関連論文リスト
- WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Learning A Zero-shot Occupancy Network from Vision Foundation Models via Self-supervised Adaptation [41.98740330990215]
本研究は,2次元視覚基礎モデルと3次元タスクをブリッジする新しい手法を提案する。
視覚言語モデルのゼロショット機能を画像意味論に活用する。
我々は、再構成されたメートル法深度を用いて意味を3次元空間に投影し、3次元の監視を行う。
論文 参考訳(メタデータ) (2025-03-10T09:54:40Z) - UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler [62.06785782635153]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthV2を提案する。
UniDepthV2は、追加情報なしで、入力画像から推論時にメートル法3Dポイントを直接予測する。
我々のモデルは擬似球面出力表現を利用し、カメラと深度表現をアンタングル化する。
論文 参考訳(メタデータ) (2025-02-27T14:03:15Z) - Single-Shot Metric Depth from Focused Plenoptic Cameras [18.412662939667676]
視覚センサによる距離推定は、ロボットが環境を知覚し、ナビゲートし、操作するために不可欠である。
光電界イメージングは、単一のデバイスを通してユニークなレンズ構成を使用することで、メートル法深度を推定するための有望なソリューションを提供する。
我々の研究は、高密度なメートル法深度のための集束型レンズカメラの可能性を探究する。
論文 参考訳(メタデータ) (2024-12-03T11:21:17Z) - MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。
我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。
ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-27T18:06:31Z) - Metric3Dv2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation [74.28509379811084]
Metric3D v2は、ゼロショット距離深さと1枚の画像からの表面正規推定のための幾何学的基礎モデルである。
距離深度推定と表面正規度推定の両方の解を提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2024-03-22T02:30:46Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。