論文の概要: Drag View: Generalizable Novel View Synthesis with Unposed Imagery
- arxiv url: http://arxiv.org/abs/2310.03704v1
- Date: Thu, 5 Oct 2023 17:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 15:12:06.947944
- Title: Drag View: Generalizable Novel View Synthesis with Unposed Imagery
- Title(参考訳): ドラッグビュー:非ポーズ画像による一般的な新しいビュー合成
- Authors: Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia
Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang
- Abstract要約: DragViewは、見えないシーンの新しいビューを生成するための、新しくてインタラクティブなフレームワークである。
我々のフレームワークは2次元先行モデルやカメラポーズの明示的な推定に依存していない。
DragViewは、ビュー合成品質の優れたパフォーマンスを一貫して示すと同時に、ユーザフレンドリである。
- 参考スコア(独自算出の注目度): 72.47072706742065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DragView, a novel and interactive framework for generating novel
views of unseen scenes. DragView initializes the new view from a single source
image, and the rendering is supported by a sparse set of unposed multi-view
images, all seamlessly executed within a single feed-forward pass. Our approach
begins with users dragging a source view through a local relative coordinate
system. Pixel-aligned features are obtained by projecting the sampled 3D points
along the target ray onto the source view. We then incorporate a view-dependent
modulation layer to effectively handle occlusion during the projection.
Additionally, we broaden the epipolar attention mechanism to encompass all
source pixels, facilitating the aggregation of initialized coordinate-aligned
point features from other unposed views. Finally, we employ another transformer
to decode ray features into final pixel intensities. Crucially, our framework
does not rely on either 2D prior models or the explicit estimation of camera
poses. During testing, DragView showcases the capability to generalize to new
scenes unseen during training, also utilizing only unposed support images,
enabling the generation of photo-realistic new views characterized by flexible
camera trajectories. In our experiments, we conduct a comprehensive comparison
of the performance of DragView with recent scene representation networks
operating under pose-free conditions, as well as with generalizable NeRFs
subject to noisy test camera poses. DragView consistently demonstrates its
superior performance in view synthesis quality, while also being more
user-friendly. Project page: https://zhiwenfan.github.io/DragView/.
- Abstract(参考訳): DragViewは、見えないシーンの新しいビューを生成するための、斬新でインタラクティブなフレームワークである。
DragViewは、新しいビューを単一のソースイメージから初期化し、レンダリングは、未ポーズのマルチビューイメージのスパースセットによってサポートされ、すべて単一のフィードフォワードパス内でシームレスに実行される。
我々のアプローチは、ユーザーがローカルな相対座標系を通してソースビューをドラッグすることから始まる。
サンプルした3d点を目標線に沿ってソースビューに投影して画素整合特徴を得る。
次に、ビュー依存変調層を組み込んでプロジェクション中の閉塞を効果的に処理する。
さらに、エピポーラアテンション機構を広め、すべてのソースピクセルを包含し、初期化座標整合点特徴を他の不適切なビューから集約する。
最後に、別の変換器を用いてレイ特徴を最終的なピクセル強度にデコードする。
重要なことは、我々のフレームワークは2D先行モデルやカメラポーズの明示的な推定に依存していない。
テスト中、dragviewはトレーニング中に目に見えない新しいシーンに一般化する能力を示し、また、サポート画像のみを活用して、フレキシブルなカメラトラジェクタによって特徴付けられるフォトリアリスティックな新しいビューの生成を可能にする。
提案実験では,ポーズフリー条件下でのドラッグビューと最近のシーン表現ネットワークの性能を総合的に比較した。
DragViewは、ビュー合成品質の優れたパフォーマンスを一貫して示すと同時に、ユーザフレンドリである。
プロジェクトページ: https://zhiwenfan.github.io/DragView/。
関連論文リスト
- No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - COLMAP-Free 3D Gaussian Splatting [88.420322646756]
本稿では,SfM前処理を使わずに新しいビュー合成を実現する手法を提案する。
入力フレームを逐次的に処理し、一度に1つの入力フレームを取ることで3Dガウスを段階的に成長させる。
提案手法は, 映像合成とカメラポーズ推定において, 大きな動き変化下での従来手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-12-12T18:39:52Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - RePAST: Relative Pose Attention Scene Representation Transformer [78.33038881681018]
SRT(Scene Representation Transformer)はインタラクティブなレートで新しいビューを描画する手法である。
本稿では、参照フレームを入力時に固定する代わりに、トランスフォーマーのアテンション機構に直接ペアワイズ対応カメラのポーズ情報を注入する。
論文 参考訳(メタデータ) (2023-04-03T13:13:12Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Structure-Aware NeRF without Posed Camera via Epipolar Constraint [8.115535686311249]
リアルなノベルビュー合成のためのニューラル・ラディアンス・フィールド(NeRF)は、カメラのポーズを事前に取得する必要がある。
ポーズ抽出とビュー合成を1つのエンドツーエンドの手順に統合し、それらが相互に利益を得ることができるようにします。
論文 参考訳(メタデータ) (2022-10-01T03:57:39Z) - FreeStyleGAN: Free-view Editable Portrait Rendering with the Camera
Manifold [5.462226912969161]
現在のGAN(Generative Adversarial Networks)は、ポートレート画像のフォトリアリスティックレンダリングを生成する。
当社のアプローチは,トレーニング済みのStyleGANを標準の3Dレンダリングパイプラインに統合する上で,どのような効果があるかを示す。
本手法は,インタラクティブなレートでリアルな顔の真の自由視点レンダリングを提案する。
論文 参考訳(メタデータ) (2021-09-20T08:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。