論文の概要: Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors
- arxiv url: http://arxiv.org/abs/2406.00687v2
- Date: Tue, 4 Jun 2024 16:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 03:46:38.744504
- Title: Lay-A-Scene: Personalized 3D Object Arrangement Using Text-to-Image Priors
- Title(参考訳): Lay-A-Scene:テキストから画像への優先順位を用いたパーソナライズされた3Dオブジェクトアレンジメント
- Authors: Ohad Rahamim, Hilit Segev, Idan Achituve, Yuval Atzmon, Yoni Kasten, Gal Chechik,
- Abstract要約: 現在の3D生成技術は、複数の高解像度オブジェクトでシーンを生成するのに苦労している。
ここでは,オープンセット3Dオブジェクトアレンジメントの課題を解決するLay-A-Sceneを紹介する。
本研究では,2次元シーン上にオブジェクトの一貫した投影を見出すことにより,オブジェクトの3次元ポーズや配置を2次元画像から推測する方法を示す。
- 参考スコア(独自算出の注目度): 43.19801974707858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating 3D visual scenes is at the forefront of visual generative AI, but current 3D generation techniques struggle with generating scenes with multiple high-resolution objects. Here we introduce Lay-A-Scene, which solves the task of Open-set 3D Object Arrangement, effectively arranging unseen objects. Given a set of 3D objects, the task is to find a plausible arrangement of these objects in a scene. We address this task by leveraging pre-trained text-to-image models. We personalize the model and explain how to generate images of a scene that contains multiple predefined objects without neglecting any of them. Then, we describe how to infer the 3D poses and arrangement of objects from a 2D generated image by finding a consistent projection of objects onto the 2D scene. We evaluate the quality of Lay-A-Scene using 3D objects from Objaverse and human raters and find that it often generates coherent and feasible 3D object arrangements.
- Abstract(参考訳): 3D視覚シーンの生成は、視覚生成AIの最前線にあるが、現在の3D生成技術は、複数の高解像度オブジェクトでシーンを生成するのに苦労している。
ここでは、オープンセット3Dオブジェクトアレンジメントの課題を解決するLay-A-Sceneを紹介します。
3Dオブジェクトのセットを与えられたタスクは、シーン内でこれらのオブジェクトの妥当な配置を見つけることである。
我々は、事前訓練されたテキスト・ツー・イメージモデルを活用することで、この問題に対処する。
モデルをパーソナライズし、複数の事前定義されたオブジェクトを含むシーンの画像を生成する方法を説明する。
次に,2次元シーン上にオブジェクトの一貫した投影を見出すことにより,オブジェクトの3次元ポーズや配置を2次元画像から推測する方法について述べる。
我々は,Objaverse と Human Raters の3Dオブジェクトを用いて,Lay-A-Scene の品質を評価し,コヒーレントで実現可能な3Dオブジェクト配置をしばしば生成することを発見した。
関連論文リスト
- Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes [86.26588382747184]
InseRFは3次元シーンのNeRF再構成において生成物挿入のための新しい手法である。
ユーザが提供するテキスト記述と参照視点での2Dバウンディングボックスに基づいて、InseRFは3Dシーンで新しいオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-01-10T18:59:53Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。