論文の概要: GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08744v1
- Date: Thu, 14 Dec 2023 08:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 23:37:55.365254
- Title: GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models
- Title(参考訳): GOEnFusion: 3次元前方拡散モデルのためのグラディエントオリジナルエンコーディング
- Authors: Animesh Karnewar and Andrea Vedaldi and Niloy J. Mitra and David
Novotny
- Abstract要約: GOEnは、事前訓練された画像特徴抽出器を使わずに、任意の種類の3D表現に画像をエンコードする。
提案するGOEnFusionモデルは,フォワード拡散モデルを実現したGOEnエンコーディングとペアリングする。
我々は,GOEn機構が符号化された表現にどの程度の情報を転送するか,基礎となる3Dシーンの事前分布をどの程度正確に捉えているかを評価する。
- 参考スコア(独自算出の注目度): 77.03830223281787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently introduced Forward-Diffusion method allows to train a 3D
diffusion model using only 2D images for supervision. However, it does not
easily generalise to different 3D representations and requires a
computationally expensive auto-regressive sampling process to generate the
underlying 3D scenes. In this paper, we propose GOEn: Gradient Origin Encoding
(pronounced "gone"). GOEn can encode input images into any type of 3D
representation without the need to use a pre-trained image feature extractor.
It can also handle single, multiple or no source view(s) alike, by design, and
tries to maximise the information transfer from the views to the encodings. Our
proposed GOEnFusion model pairs GOEn encodings with a realisation of the
Forward-Diffusion model which addresses the limitations of the vanilla
Forward-Diffusion realisation. We evaluate how much information the GOEn
mechanism transfers to the encoded representations, and how well it captures
the prior distribution over the underlying 3D scenes, through the lens of a
partial AutoEncoder. Lastly, the efficacy of the GOEnFusion model is evaluated
on the recently proposed OmniObject3D dataset while comparing to the
state-of-the-art Forward and non-Forward-Diffusion models and other 3D
generative models.
- Abstract(参考訳): 最近導入されたフォワードディフフュージョン法では、2次元画像のみを使用して3次元拡散モデルを訓練することができる。
しかし、異なる3D表現への一般化は容易ではなく、基礎となる3Dシーンを生成するのに計算的に高価な自動回帰サンプリングプロセスが必要である。
本稿では,goen:gradient origin encoding (goneと発音する)を提案する。
goenは、トレーニング済みの画像特徴抽出器を使わずに、入力画像を任意のタイプの3d表現にエンコードできる。
また、設計によって、単一の、複数の、あるいはないソースビューも同じように扱うことができ、ビューからエンコーディングへの情報転送を最大化しようとする。
提案するGOEnFusionモデルは,Vanilla Forward-Diffusion実現の限界に対処するForward-Diffusionモデルの実現と,GOEnエンコーディングのペア化を行う。
GOEn機構がエンコードされた表現にどの程度の情報を転送するか、そして、部分的なAutoEncoderのレンズを通して、基礎となる3Dシーンの以前の分布をどの程度正確に捉えているかを評価する。
最後に, GOEnFusionモデルの有効性を, 最近提案されたOmniObject3Dデータセットで評価し, 最先端のフォワードモデルおよび非フォワード拡散モデルおよび他の3次元生成モデルと比較した。
関連論文リスト
- V3D: Video Diffusion Models are Effective 3D Generators [19.33837029942662]
本稿では、事前学習したビデオ拡散モデルの世界シミュレーション能力を活用して、3D生成を容易にするV3Dを紹介する。
これを利用して、最先端のビデオ拡散モデルを微調整して、1つの画像が与えられた物体を囲む360度軌道フレームを生成することができる。
提案手法はシーンレベルの新規ビュー合成に拡張可能であり,スパース・インプット・ビューによるカメラ・パスの正確な制御を実現する。
論文 参考訳(メタデータ) (2024-03-11T14:03:36Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [82.56898294603785]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging
2D and 3D Diffusion Models [106.06810278075223]
2Dおよび3D拡散モデルは、プロンプトに基づいて適切な3Dオブジェクトを生成することができる。
3次元拡散モデルには優れた3次元整合性があるが、トレーニング可能な3次元データは高価で入手が難しいため、その品質と一般化は制限されている。
本稿では,2種類の拡散モデルから近年の明示的かつ効率的な3次元ガウススプラッティング表現を通じて電力を橋渡ししようとする。
論文 参考訳(メタデータ) (2023-10-12T17:22:24Z) - Viewset Diffusion: (0-)Image-Conditioned 3D Generative Models from 2D
Data [76.38261311948649]
Viewset Diffusionは拡散に基づくジェネレータで、3Dオブジェクトを出力する。
拡散モデルをトレーニングし、ビューセットを生成するが、ニューラルネットワークジェネレータを設計し、内部で対応する3Dモデルを再構成する。
モデルはフィードフォワード方式で効率的に再構成を行い、ビューセット当たり3ビューのレンダリング損失のみを用いてトレーニングされる。
論文 参考訳(メタデータ) (2023-06-13T16:18:51Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。