論文の概要: Honey, I Shrunk the Arc de Triomphe!
- arxiv url: http://arxiv.org/abs/2606.02379v1
- Date: Mon, 01 Jun 2026 15:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.388874
- Title: Honey, I Shrunk the Arc de Triomphe!
- Title(参考訳): Honey, I Shrunk the Arc de Triomphe!
- Authors: Yuanbo Xiangli, Hanyu Chen, Xueqing Tsang, Noah Snavely,
- Abstract要約: 大規模データアグリゲーションにより,メートルスケール単分子形状推定が大幅に進展した。
現在の基礎モデルは「スケール崩壊」現象に悩まされており、遠くのランドマークや広大な風景は計量的に過小評価されている。
我々は、MetricScenesと呼ばれる、新しい計測基準付きインザワイルドデータセットをキュレートする。
我々のデータセット上の微調整MoGe-2はスケール崩壊を著しく軽減し、制約のないオープンドメインシーンにおいて優れた計量精度を実現する。
- 参考スコア(独自算出の注目度): 28.188906774039364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metric scale monocular geometry estimation has seen significant progress through large-scale data aggregation, yet current foundation models suffer from a persistent ''scale-collapse'' phenomenon: distant landmarks and vast landscapes are metrically underestimated. We hypothesize that this performance gap stems from a training data bottleneck, where existing metric-scale datasets are hardware-constrained to homogenous vehicle-captured LiDAR or short-range indoor scans, or consist of synthetic data that lacks the semantic complexity of the physical world. To bridge this gap, we curate a new metrically-grounded, in-the-wild dataset that we call MetricScenes, gathered from a variety of sources including Internet photo collections and stereo imagery. We estimate camera poses and initial depth maps for each scene using off-the-shelf methods, and recover absolute scale from geo-tagged metadata as well as known stereo camera baselines. We also improve the quality of depth maps derived from MetricScenes via a new two-stage Poisson completion method. Fine-tuning MoGe-2 on our dataset significantly mitigates scale-collapse and achieves superior metric accuracy in unconstrained, open-domain scenes while maintaining state-of-the-art performance on standard benchmarks.
- Abstract(参考訳): しかし、現在の基礎モデルは「スケール崩壊」現象に悩まされており、遠くのランドマークや広大な風景は計量的に過小評価されている。
このパフォーマンスギャップは、既存のメトリックスケールデータセットがハードウェアに制約され、均質な車載LiDARや短距離屋内スキャン、あるいは物理世界の意味的な複雑さに欠ける合成データで構成されている、というトレーニングデータボトルネックに起因する、という仮説を立てる。
このギャップを埋めるために、インターネットの写真収集やステレオ画像など、さまざまなソースから収集されたMetricScenesと呼ばれる、新しい測位的地上のインザワイルドデータセットをキュレートする。
各シーンのカメラポーズと初期深度マップをオフザシェルフ方式で推定し,ジオタグ付きメタデータとステレオカメラベースラインから絶対スケールを復元する。
また,新しい2段階のポアソン完備化手法により,MetricScenesから派生した深度マップの品質も向上する。
我々のデータセット上の微調整MoGe-2は、スケール崩壊を著しく軽減し、標準ベンチマークの最先端性能を維持しながら、制約のないオープンドメインシーンにおいて優れた計量精度を達成する。
関連論文リスト
- MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources [25.21242040780486]
Metric Anythingは、メートル法深度推定のためのシンプルでスケーラブルな事前トレーニングフレームワークである。
手作業によるプロンプトなしで、ノイズの多い多様な3Dソースからメトリクスの深さを学習する。
Metric Anythingは、現代的な基礎モデルを動かすのと同じスケーリング法則の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2026-01-29T17:52:41Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - MoGe-2: Accurate Monocular Geometry with Metric Scale and Sharp Details [26.5687684583391]
MoGe-2は高度な開領域幾何推定モデルである。
単一の画像からシーンのメトリックスケール3Dポイントマップを復元する。
論文 参考訳(メタデータ) (2025-07-03T11:40:01Z) - MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation [9.639797094021988]
MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。
我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
論文 参考訳(メタデータ) (2024-11-16T20:59:01Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Towards Zero-Shot Scale-Aware Monocular Depth Estimation [28.42580603643096]
任意のテスト画像の計量スケールを予測できる新しい単眼深度推定フレームワークであるZeroDepthを紹介する。
これは、(i)入力レベルの幾何学的埋め込みを使用して、オブジェクトの前のスケールを学習し、(ii)エンコーダとデコーダのステージをデカップリングすることで実現される。
論文 参考訳(メタデータ) (2023-06-29T18:46:11Z) - The Drunkard's Odometry: Estimating Camera Motion in Deforming Scenes [79.00228778543553]
このデータセットは、3Dシーンの中で地上の真実を語る最初の大規模なカメラ軌道である。
リアルな3Dビルディングのシミュレーションでは、膨大な量のデータと地上の真実のラベルが得られます。
本稿では,光学的フロー推定を剛体カメラ運動に分解するDrunkard's Odometryと呼ばれる,変形可能な新しいオドメトリー法を提案する。
論文 参考訳(メタデータ) (2023-06-29T13:09:31Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。