論文の概要: Reliev3R: Relieving Feed-forward Reconstruction from Multi-View Geometric Annotations
- arxiv url: http://arxiv.org/abs/2604.00548v1
- Date: Wed, 01 Apr 2026 06:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.877964
- Title: Reliev3R: Relieving Feed-forward Reconstruction from Multi-View Geometric Annotations
- Title(参考訳): Reliev3R:多視点幾何アノテーションによるフィードフォワード再構築
- Authors: Youyu Chen, Junjun Jiang, Yueru Luo, Kui Jiang, Xianming Liu, Xu Yan, Dave Zhenyu Chen,
- Abstract要約: コスト制約のない多視点幾何アノテーションを使わずにFFRMをスクラッチからトレーニングするための弱教師付きパラダイムであるReliev3Rを提案する。
Reliev3Rのコアでは、多視点幾何整合性の監視を容易にするために、曖昧さを意識した相対深度損失と三角法に基づく再射損失を設計する。
- 参考スコア(独自算出の注目度): 98.66466590444553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advances, Feed-forward Reconstruction Models (FFRMs) have demonstrated great potential in reconstruction quality and adaptiveness to multiple downstream tasks. However, the excessive reliance on multi-view geometric annotations, e.g. 3D point maps and camera poses, makes the fully-supervised training scheme of FFRMs difficult to scale up. In this paper, we propose Reliev3R, a weakly-supervised paradigm for training FFRMs from scratch without cost-prohibitive multi-view geometric annotations. Relieving the reliance on geometric sensory data and compute-exhaustive structure-from-motion preprocessing, our method draws 3D knowledge directly from monocular relative depths and image sparse correspondences given by zero-shot predictions of pretrained models. At the core of Reliev3R, we design an ambiguity-aware relative depth loss and a trigonometry-based reprojection loss to facilitate supervision for multi-view geometric consistency. Training from scratch with the less data, Reliev3R catches up with its fully-supervised sibling models, taking a step towards low-cost 3D reconstruction supervisions and scalable FFRMs.
- Abstract(参考訳): 近年の進歩により、フィードフォワード再構成モデル(FFRM)は、複数の下流タスクに対する再構成品質と適応性に大きな可能性を示した。
しかし、多視点幾何アノテーション、例えば3Dポイントマップやカメラポーズへの過度な依存は、FFRMの完全教師付きトレーニングスキームのスケールアップを困難にしている。
本稿では,コストを抑えるマルチビュー幾何アノテーションを使わずにFFRMをスクラッチからトレーニングするための弱教師付きパラダイムであるReliev3Rを提案する。
本手法は, 運動前処理による幾何学的感覚データと計算排他的構造に依存しているため, 既訓練モデルのゼロショット予測により得られる単眼相対深度と画像スパース対応から, 直接3次元知識を抽出する。
Reliev3Rのコアでは、多視点幾何整合性の監視を容易にするために、曖昧さを意識した相対深度損失と三角法に基づく再射損失を設計する。
Reliev3Rは、より少ないデータでゼロからトレーニングし、完全に教師された兄弟モデルに追いつき、低コストの3D再構築監督とスケーラブルなFFRMに向けて一歩前進した。
関連論文リスト
- KaoLRM: Repurposing Pre-trained Large Reconstruction Models for Parametric 3D Face Reconstruction [51.67605823241639]
KaoLRMは、一視点画像からパラメトリックな3次元顔再構成を行うために、Large Restruction Model (LRM)の学習前を再度ターゲットする。
制御されたベンチマークと内部ベンチマークの両方の実験により、KaoLRMはより優れた再構成精度とクロスビュー整合性を実現することが示された。
論文 参考訳(メタデータ) (2026-01-19T05:36:59Z) - AREA3D: Active Reconstruction Agent with Unified Feed-Forward 3D Perception and Vision-Language Guidance [36.125573065910594]
アクティブな3D再構成により、エージェントは視点を自律的に選択し、正確で完全なシーン形状を得ることができる。
本研究では,フィードフォワード3次元再構成モデルと視覚言語指導を利用したアクティブリコンストラクションエージェントAREA3Dを提案する。
本フレームワークは、フィードフォワード再構成器からビュー不確実性モデリングを分離し、高価なオンライン最適化を伴わずに正確な不確実性推定を可能にする。
論文 参考訳(メタデータ) (2025-11-28T06:17:02Z) - LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - G4Splat: Geometry-Guided Gaussian Splatting with Generative Prior [53.762256749551284]
我々は,3次元シーン再構成を効果的に活用するための基本的な前提条件として,正確な幾何学を同定する。
生成パイプライン全体にこの幾何学的ガイダンスを導入し、可視性マスク推定を改善し、新しいビュー選択をガイドし、ビデオ拡散モデルに着色した場合の多視点一貫性を向上させる。
本手法は,屋内および屋外の両方のシナリオにおいて,高い一般化性を有するシングルビュー入力とアンポーズ映像を自然にサポートする。
論文 参考訳(メタデータ) (2025-10-14T03:06:28Z) - GTR: Gaussian Splatting Tracking and Reconstruction of Unknown Objects Based on Appearance and Geometric Complexity [49.31257173003408]
モノクローナルRGBDビデオからの6-DoFオブジェクト追跡と高品質な3D再構成のための新しい手法を提案する。
提案手法は, 高忠実度オブジェクトメッシュを復元する強力な能力を示し, オープンワールド環境における単一センサ3D再構成のための新しい標準を策定する。
論文 参考訳(メタデータ) (2025-05-17T08:46:29Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction [11.220655907305515]
多視点再構成フレームワークにモノクラー幾何の先行を組み込んだモノクラー誘導リファインメントモジュールを導入する。
本手法は,マルチビューカメラのポーズ推定と点雲の精度の両面で大幅に向上する。
論文 参考訳(メタデータ) (2025-04-18T02:33:12Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。