論文の概要: Pose-Free Generalizable Rendering Transformer
- arxiv url: http://arxiv.org/abs/2310.03704v3
- Date: Wed, 27 Dec 2023 22:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 22:11:15.680703
- Title: Pose-Free Generalizable Rendering Transformer
- Title(参考訳): ポーズフリー汎用レンダリングトランス
- Authors: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia
Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
- Abstract要約: PF-GRTは、Generalizable Rendering Transformer用のPose-Freeフレームワークである。
PF-GRTは局所相対座標系を用いてパラメータ化される。
データセットのゼロショットレンダリングによる実験では、フォトリアリスティック画像の生成において、優れた品質が得られることが明らかになった。
- 参考スコア(独自算出の注目度): 72.47072706742065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of novel-view synthesis, the necessity of knowing camera poses
(e.g., via Structure from Motion) before rendering has been a common practice.
However, the consistent acquisition of accurate camera poses remains elusive,
and errors in pose extraction can adversely impact the view synthesis process.
To address this challenge, we introduce PF-GRT, a new Pose-Free framework for
Generalizable Rendering Transformer, eliminating the need for pre-computed
camera poses and instead leveraging feature-matching learned directly from
data. PF-GRT is parameterized using a local relative coordinate system, where
one of the source images is set as the origin. An OmniView Transformer is
designed for fusing multi-view cues under the pose-free setting, where
unposed-view fusion and origin-centric aggregation are performed. The 3D point
feature along target ray is sampled by projecting onto the selected origin
plane. The final pixel intensities are modulated and decoded using another
Transformer. PF-GRT demonstrates an impressive ability to generalize to new
scenes that were not encountered during the training phase, without the need of
pre-computing camera poses. Our experiments with zero-shot rendering on the
LLFF, RealEstate-10k, Shiny, and Blender datasets reveal that it produces
superior quality in generating photo-realistic images. Moreover, it
demonstrates robustness against noise in test camera poses. Code is available
at https://zhiwenfan.github.io/PF-GRT/.
- Abstract(参考訳): ノベルビュー合成の分野では、レンダリングの前にカメラのポーズを知る必要性(例えば、Structure from Motion)が一般的である。
しかし、正確なカメラポーズの連続的な取得は明らかにならず、ポーズ抽出におけるエラーは、ビュー合成プロセスに悪影響を及ぼす可能性がある。
この課題に対処するために、我々は、Generalizable Rendering Transformer用の新しいPF-GRTフレームワークを導入し、事前計算されたカメラポーズの必要性を排除し、データから直接学習した特徴マッチングを活用する。
PF-GRTは、ソース画像の1つを原点とする局所相対座標系を用いてパラメータ化される。
omniview トランスフォーマーは、ポーズフリー設定下でマルチビューのキューを融合するために設計されており、未設定のビュー融合とオリジン中心のアグリゲーションが行われる。
選択された原点面に投影してターゲット線に沿った3d点特徴をサンプリングする。
最終的なピクセル強度は、別のTransformerを使用して変調および復号化される。
pf-grtは、事前のカメラポーズを必要とせずに、トレーニング段階では見つからなかった新しいシーンに一般化する素晴らしい能力を示している。
llff, realestate-10k, shiny, blenderデータセット上でゼロショットレンダリングを行った結果,画像生成に優れた品質が得られた。
さらに、テストカメラのポーズにおけるノイズに対する堅牢性を示す。
コードはhttps://zhiwenfan.github.io/PF-GRT/で入手できる。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - RePAST: Relative Pose Attention Scene Representation Transformer [78.33038881681018]
SRT(Scene Representation Transformer)はインタラクティブなレートで新しいビューを描画する手法である。
本稿では、参照フレームを入力時に固定する代わりに、トランスフォーマーのアテンション機構に直接ペアワイズ対応カメラのポーズ情報を注入する。
論文 参考訳(メタデータ) (2023-04-03T13:13:12Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Structure-Aware NeRF without Posed Camera via Epipolar Constraint [8.115535686311249]
リアルなノベルビュー合成のためのニューラル・ラディアンス・フィールド(NeRF)は、カメラのポーズを事前に取得する必要がある。
ポーズ抽出とビュー合成を1つのエンドツーエンドの手順に統合し、それらが相互に利益を得ることができるようにします。
論文 参考訳(メタデータ) (2022-10-01T03:57:39Z) - FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera
Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。
本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文 参考訳(メタデータ) (2021-09-20T08:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。