論文の概要: E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
- arxiv url: http://arxiv.org/abs/2512.10950v1
- Date: Thu, 11 Dec 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.576282
- Title: E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training
- Title(参考訳): E-RayZer:空間的視覚前訓練としての自己監督型3D再構成
- Authors: Qitao Zhao, Hao Tan, Qianqian Wang, Sai Bi, Kai Zhang, Kalyan Sunkavalli, Shubham Tulsiani, Hanwen Jiang,
- Abstract要約: E-RayZerは、ラベルのない画像から直接、真の3D認識表現を学習する、自己教師付き大規模3Dビジョンモデルである。
E-RayZerは直接3D空間で動作し、明示幾何学を用いて自己教師付き3D再構成を行う。
- 参考スコア(独自算出の注目度): 55.61379509038588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pre-training has revolutionized foundation models for languages, individual 2D images and videos, but remains largely unexplored for learning 3D-aware representations from multi-view images. In this paper, we present E-RayZer, a self-supervised large 3D Vision model that learns truly 3D-aware representations directly from unlabeled images. Unlike prior self-supervised methods such as RayZer that infer 3D indirectly through latent-space view synthesis, E-RayZer operates directly in 3D space, performing self-supervised 3D reconstruction with Explicit geometry. This formulation eliminates shortcut solutions and yields representations that are geometrically grounded. To ensure convergence and scalability, we introduce a novel fine-grained learning curriculum that organizes training from easy to hard samples and harmonizes heterogeneous data sources in an entirely unsupervised manner. Experiments demonstrate that E-RayZer significantly outperforms RayZer on pose estimation, matches or sometimes surpasses fully supervised reconstruction models such as VGGT. Furthermore, its learned representations outperform leading visual pre-training models (e.g., DINOv3, CroCo v2, VideoMAE V2, and RayZer) when transferring to 3D downstream tasks, establishing E-RayZer as a new paradigm for 3D-aware visual pre-training.
- Abstract(参考訳): 自己教師付き事前学習は言語、個々の2D画像、ビデオの基礎モデルに革命をもたらしたが、多視点画像から3D認識表現を学ぶために探索されていない。
本稿では,E-RayZerを提案する。E-RayZerは,ラベルのない画像から直接,真の3D認識表現を学習する,自己教師付き大規模3Dビジョンモデルである。
E-RayZerは3Dを間接的に潜在空間ビュー合成によって推定するRayZerのような従来の自己教師型手法とは異なり、直接3D空間で動作し、明示幾何学を用いて自己教師型3D再構成を行う。
この定式化はショートカット解を排除し、幾何学的に接地された表現を与える。
コンバージェンスとスケーラビリティを確保するために,難易度から難易度までのトレーニングを組織化し,不均一なデータソースを教師なしで調和させる,新たなきめ細かい学習カリキュラムを導入する。
実験により、E-RayZerは、VGGTのような完全に教師付き再構築モデルよりも、ポーズ推定、マッチ、時には上回っていることが示された。
さらに、その学習された表現は、3D下流タスクへの移行時に主要な視覚前訓練モデル(例えば、DINOv3、CroCo v2、VideoMAE V2、RayZer)よりも優れており、E-RayZerは3D対応の視覚前訓練のための新しいパラダイムとして確立されている。
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.648593818811976]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何学と知覚情報をシームレスに統合する新しい手法を提案する。
実験結果から,新しい視点合成法や3次元再構成法よりも優れ,頑健で一貫した3次元オブジェクト生成を実証した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - RayZer: A Self-supervised Large View Synthesis Model [57.49400982733179]
レイザー(RayZer)は、3Dの監督なしに訓練された自己監督型多視点3Dビジョンモデルである。
RayZerはアンポーズ画像とアンキャリブレーション画像を入力として取り出し、カメラパラメータを復元し、シーン表現を再構築し、新しいビューを合成する。
論文 参考訳(メタデータ) (2025-05-01T17:59:34Z) - UVRM: A Scalable 3D Reconstruction Model from Unposed Videos [68.34221167200259]
従来の2次元視覚データを用いた3D再構成モデルのトレーニングには、トレーニングサンプルのカメラポーズに関する事前知識が必要である。
UVRMは、ポーズに関する情報を必要とせず、単眼ビデオでトレーニングし、評価できる新しい3D再構成モデルである。
論文 参考訳(メタデータ) (2025-01-16T08:00:17Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - UNeR3D: Versatile and Scalable 3D RGB Point Cloud Generation from 2D
Images in Unsupervised Reconstruction [2.7848140839111903]
UNeR3Dは、2Dビューのみから詳細な3D再構成を生成するための新しい標準を設定している。
私たちのモデルは、教師付きアプローチに関連するトレーニングコストを大幅に削減します。
UNeR3Dはシームレスな色遷移を保証し、視力を高める。
論文 参考訳(メタデータ) (2023-12-10T15:18:55Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。