論文の概要: Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.19914v1
- Date: Tue, 25 Mar 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:54:57.187208
- Title: Learning 3D Object Spatial Relationships from Pre-trained 2D Diffusion Models
- Title(参考訳): 事前学習した2次元拡散モデルによる3次元物体空間関係の学習
- Authors: Sangwon Beak, Hyeonwoo Kim, Hanbyul Joo,
- Abstract要約: 本研究では,事前学習した2次元拡散モデルから合成した3次元サンプルを利用して,オブジェクト対間の空間的関係を学習する手法を提案する。
われわれのアプローチは、プラプシブルなOORキューをキャプチャする多様な画像を合成して始まり、それを3Dサンプルにアップリフトする。
我々は、ペアワイズOORを多目的OORに拡張し、ペアワイズ関係間の一貫性を強制し、オブジェクト衝突を防止する。
- 参考スコア(独自算出の注目度): 9.103840202072336
- License:
- Abstract: We present a method for learning 3D spatial relationships between object pairs, referred to as object-object spatial relationships (OOR), by leveraging synthetically generated 3D samples from pre-trained 2D diffusion models. We hypothesize that images synthesized by 2D diffusion models inherently capture plausible and realistic OOR cues, enabling efficient ways to collect a 3D dataset to learn OOR for various unbounded object categories. Our approach begins by synthesizing diverse images that capture plausible OOR cues, which we then uplift into 3D samples. Leveraging our diverse collection of plausible 3D samples for the object pairs, we train a score-based OOR diffusion model to learn the distribution of their relative spatial relationships. Additionally, we extend our pairwise OOR to multi-object OOR by enforcing consistency across pairwise relations and preventing object collisions. Extensive experiments demonstrate the robustness of our method across various object-object spatial relationships, along with its applicability to real-world 3D scene arrangement tasks using the OOR diffusion model.
- Abstract(参考訳): 本稿では,事前学習した2次元拡散モデルから合成された3次元サンプルを活用することで,オブジェクト間の空間的関係(OOR)を学習する手法を提案する。
2次元拡散モデルにより合成された画像は、本質的に可塑性でリアルなOORキューをキャプチャし、3次元データセットを効率よく収集し、様々な非有界オブジェクトカテゴリのOORを学習することができると仮定する。
われわれのアプローチは、プラプシブルなOORキューをキャプチャする多様な画像を合成して始まり、それを3Dサンプルにアップリフトする。
対象対に対する多種多様な3Dサンプルの収集を活用することで,相対空間関係の分布を学習するためのスコアベースOOR拡散モデルを訓練する。
さらに、ペアワイズOORを多目的OORに拡張し、ペアワイズ関係間の一貫性を強制し、オブジェクト衝突を防止する。
OOR拡散モデルを用いた実世界の3Dシーンアレンジメントタスクに適用可能であるとともに、オブジェクトとオブジェクトの空間的関係にまたがる手法の堅牢性を示す。
関連論文リスト
- A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection [77.23918785277404]
半教師付き3次元物体検出のための拡散モデルを用いて,擬似ラベルの品質向上に向けた新たな視点であるDiffusion-SS3Dを提案する。
具体的には、劣化した3Dオブジェクトサイズとクラスラベル、分布を生成し、拡散モデルをデノナイズプロセスとして利用し、バウンディングボックス出力を得る。
我々は,ScanNetとSUN RGB-Dベンチマークデータセットの実験を行い,既存手法に対する最先端性能の実現を実証した。
論文 参考訳(メタデータ) (2023-12-05T18:54:03Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Explicit3D: Graph Network with Spatial Inference for Single Image 3D
Object Detection [35.85544715234846]
本稿では,オブジェクトの幾何学的特徴と意味論的特徴に基づいて,Explicit3Dという動的スパースグラフパイプラインを提案する。
SUN RGB-Dデータセットによる実験結果から,我々のExplicit3Dは最先端技術よりも優れた性能バランスを実現することが示された。
論文 参考訳(メタデータ) (2023-02-13T16:19:54Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - SurfEmb: Dense and Continuous Correspondence Distributions for Object
Pose Estimation with Learnt Surface Embeddings [2.534402217750793]
データから物体表面上の密度の連続した2D-3D対応分布を学習する手法を提案する。
また,学習した分布を用いた剛体物体の6次元ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。