Fugu-MT 論文翻訳(概要): GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models

論文の概要: GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models

arxiv url: http://arxiv.org/abs/2312.08744v1
Date: Thu, 14 Dec 2023 08:39:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 23:37:55.365254
Title: GOEnFusion: Gradient Origin Encodings for 3D Forward Diffusion Models
Title（参考訳）: GOEnFusion: 3次元前方拡散モデルのためのグラディエントオリジナルエンコーディング
Authors: Animesh Karnewar and Andrea Vedaldi and Niloy J. Mitra and David Novotny
Abstract要約: GOEnは、事前訓練された画像特徴抽出器を使わずに、任意の種類の3D表現に画像をエンコードする。提案するGOEnFusionモデルは,フォワード拡散モデルを実現したGOEnエンコーディングとペアリングする。我々は,GOEn機構が符号化された表現にどの程度の情報を転送するか,基礎となる3Dシーンの事前分布をどの程度正確に捉えているかを評価する。
参考スコア（独自算出の注目度）: 77.03830223281787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recently introduced Forward-Diffusion method allows to train a 3D diffusion model using only 2D images for supervision. However, it does not easily generalise to different 3D representations and requires a computationally expensive auto-regressive sampling process to generate the underlying 3D scenes. In this paper, we propose GOEn: Gradient Origin Encoding (pronounced "gone"). GOEn can encode input images into any type of 3D representation without the need to use a pre-trained image feature extractor. It can also handle single, multiple or no source view(s) alike, by design, and tries to maximise the information transfer from the views to the encodings. Our proposed GOEnFusion model pairs GOEn encodings with a realisation of the Forward-Diffusion model which addresses the limitations of the vanilla Forward-Diffusion realisation. We evaluate how much information the GOEn mechanism transfers to the encoded representations, and how well it captures the prior distribution over the underlying 3D scenes, through the lens of a partial AutoEncoder. Lastly, the efficacy of the GOEnFusion model is evaluated on the recently proposed OmniObject3D dataset while comparing to the state-of-the-art Forward and non-Forward-Diffusion models and other 3D generative models.
Abstract（参考訳）: 最近導入されたフォワードディフフュージョン法では、2次元画像のみを使用して3次元拡散モデルを訓練することができる。しかし、異なる3D表現への一般化は容易ではなく、基礎となる3Dシーンを生成するのに計算的に高価な自動回帰サンプリングプロセスが必要である。本稿では,goen:gradient origin encoding (goneと発音する)を提案する。 goenは、トレーニング済みの画像特徴抽出器を使わずに、入力画像を任意のタイプの3d表現にエンコードできる。また、設計によって、単一の、複数の、あるいはないソースビューも同じように扱うことができ、ビューからエンコーディングへの情報転送を最大化しようとする。提案するGOEnFusionモデルは,Vanilla Forward-Diffusion実現の限界に対処するForward-Diffusionモデルの実現と,GOEnエンコーディングのペア化を行う。 GOEn機構がエンコードされた表現にどの程度の情報を転送するか、そして、部分的なAutoEncoderのレンズを通して、基礎となる3Dシーンの以前の分布をどの程度正確に捉えているかを評価する。最後に, GOEnFusionモデルの有効性を, 最近提案されたOmniObject3Dデータセットで評価し, 最先端のフォワードモデルおよび非フォワード拡散モデルおよび他の3次元生成モデルと比較した。

関連論文リスト

Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors [11.156009461711639]
GGS(Generative Gaussian Splatting)は、3D表現と事前学習された遅延ビデオ拡散モデルを統合する新しい手法である。本研究では,シーン合成のための2つの共通ベンチマークデータセットであるRealEstate10KとScanNet+について検討した。
論文参考訳（メタデータ） (2025-03-17T15:24:04Z)
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。 TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文参考訳（メタデータ） (2024-12-22T08:28:20Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs [5.84660008137615]
SYM3Dは、自然と人造の物体で見られる主観対称性構造を活用するために設計された、新しい3D対応のGANである。単視点画像のみを訓練しても, 詳細な形状やテクスチャを捉える上で, 優れた性能を示す。
論文参考訳（メタデータ） (2024-06-10T16:24:07Z)
ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。 ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-01-04T18:59:25Z)
WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文参考訳（メタデータ） (2023-11-22T18:25:51Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。 Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文参考訳（メタデータ） (2023-10-10T16:49:21Z)
DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting [28.709044035867596]
本稿では,DFA3Dと呼ばれる2D-to-3D機能リフトのための新しい演算子を提案する。 DFA3Dは、多視点2D画像の特徴を3Dオブジェクト検出のための統一された3D空間に変換する。
論文参考訳（メタデータ） (2023-07-24T17:49:11Z)
Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文参考訳（メタデータ） (2023-06-30T17:59:08Z)
Gait Recognition in the Wild with Dense 3D Representations and A Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文参考訳（メタデータ） (2022-04-06T03:54:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。