論文の概要: Free3D: Consistent Novel View Synthesis without 3D Representation
- arxiv url: http://arxiv.org/abs/2312.04551v1
- Date: Thu, 7 Dec 2023 18:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:36:22.710998
- Title: Free3D: Consistent Novel View Synthesis without 3D Representation
- Title(参考訳): free3d: 3d表現のない一貫した新しいビュー合成
- Authors: Chuanxia Zheng and Andrea Vedaldi
- Abstract要約: Free3Dは、単一画像からのオープンセットノベルビュー合成(NVS)のために設計されたシンプルなアプローチである。
一般化のための2次元画像生成装置の事前訓練から始まり、NVS向けに微調整する。
近年の作業と比較すると、明示的な3D表現に頼ることなく、大幅な改善が得られている。
- 参考スコア(独自算出の注目度): 75.52709432844759
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Free3D, a simple approach designed for open-set novel view
synthesis (NVS) from a single image. Similar to Zero-1-to-3, we start from a
pre-trained 2D image generator for generalization, and fine-tune it for NVS.
Compared to recent and concurrent works, we obtain significant improvements
without resorting to an explicit 3D representation, which is slow and
memory-consuming or training an additional 3D network. We do so by encoding
better the target camera pose via a new per-pixel ray conditioning
normalization (RCN) layer. The latter injects pose information in the
underlying 2D image generator by telling each pixel its specific viewing
direction. We also improve multi-view consistency via a light-weight multi-view
attention layer and multi-view noise sharing. We train Free3D on the Objaverse
dataset and demonstrate excellent generalization to various new categories in
several new datasets, including OminiObject3D and GSO. We hope our simple and
effective approach will serve as a solid baseline and help future research in
NVS with more accuracy pose. The project page is available at
https://chuanxiaz.com/free3d/.
- Abstract(参考訳): 単一画像からNVS(Open-set novel view synthesis)を実現するためのシンプルなアプローチであるFree3Dを紹介する。
zero-1-to-3と同様に、一般化のためにトレーニング済みの2dイメージジェネレータから始め、nvsで微調整します。
最近の作業や並行作業と比較すると,3dネットワークの追加やメモリ消費といった明示的な3d表現を使わずに,大幅な改善が得られます。
我々は、新しいピクセル単位の光線コンディショニング正規化(rcn)層を通して、ターゲットカメラのポーズをより良くエンコードする。
後者は、各画素に特定の表示方向を指示することにより、基礎となる2D画像生成装置にポーズ情報を注入する。
また,軽量マルチビューアテンション層とマルチビューノイズ共有により,マルチビュー一貫性も向上した。
我々はobjaverseデータセットでfree3dをトレーニングし、ominiobject3dやgsoを含むいくつかの新しいデータセットの様々な新しいカテゴリに優れた一般化を示す。
我々のシンプルで効果的なアプローチが、確固たるベースラインとして機能し、NVSにおける将来の研究に役立つことを願っています。
プロジェクトページはhttps://chuanxiaz.com/free3d/。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - iNVS: Repurposing Diffusion Inpainters for Novel View Synthesis [45.88928345042103]
単一ソース画像から一貫した新しいビューを生成する方法を提案する。
本手法は,画像からの可視画素の再利用を最大化することに焦点を当てる。
我々は、光源ビューからターゲットビューへ可視画素を転送する単眼深度推定器を用いる。
論文 参考訳(メタデータ) (2023-10-24T20:33:19Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。