論文の概要: RayZer: A Self-supervised Large View Synthesis Model
- arxiv url: http://arxiv.org/abs/2505.00702v1
- Date: Thu, 01 May 2025 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.398149
- Title: RayZer: A Self-supervised Large View Synthesis Model
- Title(参考訳): RayZer: 自己監督型大規模ビュー合成モデル
- Authors: Hanwen Jiang, Hao Tan, Peng Wang, Haian Jin, Yue Zhao, Sai Bi, Kai Zhang, Fujun Luan, Kalyan Sunkavalli, Qixing Huang, Georgios Pavlakos,
- Abstract要約: レイザー(RayZer)は、3Dの監督なしに訓練された自己監督型多視点3Dビジョンモデルである。
RayZerはアンポーズ画像とアンキャリブレーション画像を入力として取り出し、カメラパラメータを復元し、シーン表現を再構築し、新しいビューを合成する。
- 参考スコア(独自算出の注目度): 57.49400982733179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RayZer, a self-supervised multi-view 3D Vision model trained without any 3D supervision, i.e., camera poses and scene geometry, while exhibiting emerging 3D awareness. Concretely, RayZer takes unposed and uncalibrated images as input, recovers camera parameters, reconstructs a scene representation, and synthesizes novel views. During training, RayZer relies solely on its self-predicted camera poses to render target views, eliminating the need for any ground-truth camera annotations and allowing RayZer to be trained with 2D image supervision. The emerging 3D awareness of RayZer is attributed to two key factors. First, we design a self-supervised framework, which achieves 3D-aware auto-encoding of input images by disentangling camera and scene representations. Second, we design a transformer-based model in which the only 3D prior is the ray structure, connecting camera, pixel, and scene simultaneously. RayZer demonstrates comparable or even superior novel view synthesis performance than ``oracle'' methods that rely on pose annotations in both training and testing. Project: https://hwjiang1510.github.io/RayZer/
- Abstract(参考訳): 我々は、カメラポーズやシーン幾何学といった3Dの監督なしに訓練された、自己監督型マルチビュー3DビジョンモデルであるRayZerを紹介し、新たな3D認識を提示する。
具体的には、RayZerは未ポーズ画像と未校正画像を入力として取り出し、カメラパラメータを復元し、シーン表現を再構築し、新しいビューを合成する。
トレーニング中、RayZerはターゲットビューのレンダリングに自己予測カメラのポーズのみを頼りにし、2D画像の監視でRayZerを訓練できるようにする。
RayZerの3D認識は、2つの重要な要因に起因している。
まず,カメラとシーン表現を分離することにより,入力画像の3次元自動符号化を実現する。
第2に,光線構造とカメラ,画素,シーンを同時に接続するトランスフォーマーモデルの設計を行った。
RayZerは、トレーニングとテストの両方でアノテーションのポーズに依存する '`oracle'' メソッドと同等か、あるいはそれ以上に優れた新規ビュー合成性能を示している。
プロジェクト:https://hwjiang1510.github.io/RayZer/
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models [4.036372578802888]
安定拡散のようなモデルのテキスト埋め込み空間において,特定の3次元シーン表現が符号化されていることを示す。
我々は,3次元視覚タスク,すなわちビュー制御されたテキスト・ツー・イメージ生成,および単一画像からの新規なビュー合成に3次元シーン表現を利用する。
論文 参考訳(メタデータ) (2023-09-14T18:52:16Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。