論文の概要: Coherent 3D Scene Diffusion From a Single RGB Image
- arxiv url: http://arxiv.org/abs/2412.10294v1
- Date: Fri, 13 Dec 2024 17:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:33.348963
- Title: Coherent 3D Scene Diffusion From a Single RGB Image
- Title(参考訳): 1枚のRGB画像からのコヒーレント3次元シーン拡散
- Authors: Manuel Dahnert, Angela Dai, Norman Müller, Matthias Nießner,
- Abstract要約: 単一のRGB画像からのコヒーレントな3次元シーン再構成のための拡散に基づく新しい手法を提案する。
本手法は,シーン内のすべてのオブジェクトの3次元ポーズとジオメトリを同時に認識する。
一つのRGB画像3Dシーン再構成のタスクを条件付き拡散プロセスとしてフレーミングすることにより,本手法は最先端の手法を超越する。
- 参考スコア(独自算出の注目度): 68.31336308924477
- License:
- Abstract: We present a novel diffusion-based approach for coherent 3D scene reconstruction from a single RGB image. Our method utilizes an image-conditioned 3D scene diffusion model to simultaneously denoise the 3D poses and geometries of all objects within the scene. Motivated by the ill-posed nature of the task and to obtain consistent scene reconstruction results, we learn a generative scene prior by conditioning on all scene objects simultaneously to capture the scene context and by allowing the model to learn inter-object relationships throughout the diffusion process. We further propose an efficient surface alignment loss to facilitate training even in the absence of full ground-truth annotation, which is common in publicly available datasets. This loss leverages an expressive shape representation, which enables direct point sampling from intermediate shape predictions. By framing the task of single RGB image 3D scene reconstruction as a conditional diffusion process, our approach surpasses current state-of-the-art methods, achieving a 12.04% improvement in AP3D on SUN RGB-D and a 13.43% increase in F-Score on Pix3D.
- Abstract(参考訳): 単一のRGB画像からのコヒーレントな3次元シーン再構成のための拡散に基づく新しい手法を提案する。
画像条件付き3次元シーン拡散モデルを用いて、シーン内のすべてのオブジェクトの3次元ポーズとジオメトリを同時に識別する。
課題の誤った性質と一貫したシーン再構築結果によって動機付けられ,すべてのシーンオブジェクトを同時に条件付けして生成シーンを学習し,シーンコンテキストをキャプチャし,拡散過程を通してオブジェクト間の関係を学習できるようにすることで,生成シーンを学習する。
さらに,一般に公開されているデータセットに共通するフルグランドトラスアノテーションが存在しない場合でも,トレーニングを容易にするための効率的な表面アライメント損失を提案する。
この損失は、中間形状予測からの直接点サンプリングを可能にする表現的形状表現を利用する。
SUN RGB-DではAP3Dが12.04%向上し,Pix3DではFスコアが13.43%向上した。
関連論文リスト
- Localized Gaussian Splatting Editing with Contextual Awareness [10.46087834880747]
本稿では,3Dガウススプラッティング(3DGS)表現のための照明対応3Dシーン編集パイプラインを提案する。
最先端条件付き2次元拡散モデルによる塗装は、照明の背景と一致している。
提案手法は,光輸送を明示的にモデル化することなく,局所的な照明の整合性を効果的に実現している。
論文 参考訳(メタデータ) (2024-07-31T18:00:45Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Point Cloud Scene Completion with Joint Color and Semantic Estimation
from Single RGB-D Image [45.640943637433416]
本稿では,色付きセマンティック・ポイント・クラウドシーンのボリューム誘導による仕上げのためのプログレッシブ・ビュー・インペインティングの深層強化学習手法を提案する。
提案手法は,3次元シーンのボリューム再構成,2次元RGB-Dとセグメンテーション画像のインペインティング,完成のための複数ビュー選択という3つのモジュールから構成される。
論文 参考訳(メタデータ) (2022-10-12T03:08:24Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。