論文の概要: LoRA3D: Low-Rank Self-Calibration of 3D Geometric Foundation Models
- arxiv url: http://arxiv.org/abs/2412.07746v1
- Date: Tue, 10 Dec 2024 18:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:54.995828
- Title: LoRA3D: Low-Rank Self-Calibration of 3D Geometric Foundation Models
- Title(参考訳): LoRA3D:3次元幾何学基礎モデルの低ランク自己校正
- Authors: Ziqi Lu, Heng Yang, Danfei Xu, Boyi Li, Boris Ivanovic, Marco Pavone, Yue Wang,
- Abstract要約: LoRA3Dは3次元幾何学的基礎モデルのための効率的な自己校正パイプラインである。
我々は、ロバストな最適化手法を利用して、多視点予測を洗練し、それらをグローバルな座標フレームに整列させる。
本手法は,$textbfsingle標準GPU上での自己校正処理を5分以内で完了する。
- 参考スコア(独自算出の注目度): 36.17554088247551
- License:
- Abstract: Emerging 3D geometric foundation models, such as DUSt3R, offer a promising approach for in-the-wild 3D vision tasks. However, due to the high-dimensional nature of the problem space and scarcity of high-quality 3D data, these pre-trained models still struggle to generalize to many challenging circumstances, such as limited view overlap or low lighting. To address this, we propose LoRA3D, an efficient self-calibration pipeline to $\textit{specialize}$ the pre-trained models to target scenes using their own multi-view predictions. Taking sparse RGB images as input, we leverage robust optimization techniques to refine multi-view predictions and align them into a global coordinate frame. In particular, we incorporate prediction confidence into the geometric optimization process, automatically re-weighting the confidence to better reflect point estimation accuracy. We use the calibrated confidence to generate high-quality pseudo labels for the calibrating views and use low-rank adaptation (LoRA) to fine-tune the models on the pseudo-labeled data. Our method does not require any external priors or manual labels. It completes the self-calibration process on a $\textbf{single standard GPU within just 5 minutes}$. Each low-rank adapter requires only $\textbf{18MB}$ of storage. We evaluated our method on $\textbf{more than 160 scenes}$ from the Replica, TUM and Waymo Open datasets, achieving up to $\textbf{88% performance improvement}$ on 3D reconstruction, multi-view pose estimation and novel-view rendering.
- Abstract(参考訳): DUSt3Rのような新しい3D幾何学的基礎モデルでは、Wild 3D視覚タスクに有望なアプローチを提供する。
しかし、問題空間の高次元的性質と高品質な3Dデータの不足により、これらの事前訓練されたモデルは、視野の重複や照明の低さなど、多くの困難な状況への一般化に苦慮している。
これを解決するために、我々はLoRA3Dという効率的な自己校正パイプラインを$\textit{specialize}$に提案する。
スパースRGB画像を入力として、ロバストな最適化手法を活用し、多視点予測を洗練させ、それらをグローバルな座標フレームに整列させる。
特に、予測信頼度を幾何最適化プロセスに組み込み、自動的に信頼度を再重み付けし、点推定精度をより良く反映する。
キャリブレーションされた信頼度を用いて、キャリブレーションビューのための高品質な擬似ラベルを生成し、ローランク適応(LoRA)を用いて擬似ラベル付きデータ上でモデルを微調整する。
私たちのメソッドは、外部の事前や手動のラベルを一切必要としません。
5分以内で$\textbf{single標準GPU上で自己校正処理を完了する。
各ローランクアダプタは$\textbf{18MB}$のストレージしか必要としない。
Replica, TUM, Waymo Openのデータセットから$$\textbf{88%のパフォーマンス改善を達成できる$$\textbf{more than 160 scene}を3次元再構成、マルチビューポーズ推定、ノベルビューレンダリングで評価した。
関連論文リスト
- SelfSplat: Pose-Free and 3D Prior-Free Generalizable 3D Gaussian Splatting [4.121797302827049]
ポーズフリーで3次元の事前自由な一般化可能な3次元再構成を実現するための新しい3次元ガウススプラッティングモデルであるSelfSplatを提案する。
本モデルでは,これらの課題に対して,自己教師付き深度とポーズ推定手法を効果的に統合することによって対処する。
提案手法の性能を評価するため,RealEstate10K,ACID,DL3DVなどの大規模実世界のデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2024-11-26T08:01:50Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文 参考訳(メタデータ) (2023-06-03T11:08:38Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。