論文の概要: Unlocking the Power of Critical Factors for 3D Visual Geometry Estimation
- arxiv url: http://arxiv.org/abs/2604.21713v1
- Date: Thu, 23 Apr 2026 14:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.590675
- Title: Unlocking the Power of Critical Factors for 3D Visual Geometry Estimation
- Title(参考訳): 3次元視覚幾何推定のための臨界因子のパワーを解き放つ
- Authors: Guangkai Xu, Hua Geng, Huanyi Zheng, Songyi Yin, Yanlong Sun, Hao Chen, Chunhua Shen,
- Abstract要約: 本稿では,厳密なアブレーション研究を通じてモデル性能を駆動する重要な要因について検討する。
最適化手法と高分解能入力の利点を統合するための2つの拡張を導入する。
点雲再構成、ビデオ深度推定、カメラのポーズ/内在推定の実験は、CARVEが様々なベンチマークで強力で堅牢な性能を達成していることを示している。
- 参考スコア(独自算出の注目度): 43.14437643346991
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Feed-forward visual geometry estimation has recently made rapid progress. However, an important gap remains: multi-frame models usually produce better cross-frame consistency, yet they often underperform strong per-frame methods on single-frame accuracy. This observation motivates our systematic investigation into the critical factors driving model performance through rigorous ablation studies, which reveals several key insights: 1) Scaling up data diversity and quality unlocks further performance gains even in state-of-the-art visual geometry estimation methods; 2) Commonly adopted confidence-aware loss and gradient-based loss mechanisms may unintentionally hinder performance; 3) Joint supervision through both per-sequence and per-frame alignment improves results, while local region alignment surprisingly degrades performance. Furthermore, we introduce two enhancements to integrate the advantages of optimization-based methods and high-resolution inputs: a consistency loss function that enforces alignment between depth maps, camera parameters, and point maps, and an efficient architectural design that leverages high-resolution information. We integrate these designs into CARVE, a resolution-enhanced model for feed-forward visual geometry estimation. Experiments on point cloud reconstruction, video depth estimation, and camera pose/intrinsic estimation show that CARVE achieves strong and robust performance across diverse benchmarks.
- Abstract(参考訳): フィードフォワードの視覚的幾何推定は、最近急速に進歩している。
しかし、重要なギャップは残る: マルチフレームモデルは通常、クロスフレームの一貫性を向上するが、シングルフレームの正確性において、強いフレーム単位のメソッドを過小評価することが多い。
この観察は、厳密なアブレーション研究を通じてモデルパフォーマンスを駆動する重要な要因について、系統的な調査を動機付けている。
1) 最先端のビジュアル幾何推定手法においても、データの多様性と品質の増大によりさらなる性能向上が期待できる。
2 一般的に採用されている信頼感喪失及び勾配に基づく損失機構は、意図的に性能を損なう可能性がある。
3)シーケンス毎とフレーム毎のアライメントによる共同管理は結果を改善する一方,局所的なアライメントは驚くほど性能を低下させる。
さらに,最適化手法と高解像度入力の利点を統合するために,奥行きマップ,カメラパラメータ,点マップのアライメントを強制する整合損失関数と,高解像度情報を活用する効率的なアーキテクチャ設計を導入する。
我々はこれらの設計を、フィードフォワード視覚幾何学推定のための分解能強化モデルであるCARVEに統合する。
点雲再構成、ビデオ深度推定、カメラのポーズ/内在推定の実験は、CARVEが様々なベンチマークで強力で堅牢な性能を達成していることを示している。
関連論文リスト
- MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting [21.952325954391508]
本稿では、3DGSベースのフレームワークであるGesplatを紹介し、ロバストな新しいビュー合成と、未提示のスパース画像からの幾何的に一貫した再構成を可能にする。
提案手法は,他のポーズフリー手法と比較して,前方および大規模の複雑なデータセット上でより堅牢な性能を実現する。
論文 参考訳(メタデータ) (2025-10-11T08:13:46Z) - Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion [43.59385149982744]
単一フレームのポーズ推定は大きな進歩を遂げているが、複雑な連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
時間情報を統合することでViTPoseモデルを拡張する新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
論文 参考訳(メタデータ) (2025-01-14T21:34:34Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature
Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。
最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。
単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-26T05:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。