論文の概要: Functional 3D Scene Synthesis through Human-Scene Optimization
- arxiv url: http://arxiv.org/abs/2502.06819v1
- Date: Wed, 05 Feb 2025 04:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:11.764893
- Title: Functional 3D Scene Synthesis through Human-Scene Optimization
- Title(参考訳): 人間のシーン最適化による機能的3次元シーン合成
- Authors: Yao Wei, Matteo Toso, Pietro Morerio, Michael Ying Yang, Alessio Del Bue,
- Abstract要約: 我々のアプローチは、シンプルだが効果的な原理に基づいており、我々はシーン合成を条件に、人間によって使用可能な部屋を生成する。
この人間中心のシーン生成が実現可能であれば、部屋のレイアウトは機能し、より一貫性のある3D構造に繋がる。
- 参考スコア(独自算出の注目度): 30.910671968876024
- License:
- Abstract: This paper presents a novel generative approach that outputs 3D indoor environments solely from a textual description of the scene. Current methods often treat scene synthesis as a mere layout prediction task, leading to rooms with overlapping objects or overly structured scenes, with limited consideration of the practical usability of the generated environment. Instead, our approach is based on a simple, but effective principle: we condition scene synthesis to generate rooms that are usable by humans. This principle is implemented by synthesizing 3D humans that interact with the objects composing the scene. If this human-centric scene generation is viable, the room layout is functional and it leads to a more coherent 3D structure. To this end, we propose a novel method for functional 3D scene synthesis, which consists of reasoning, 3D assembling and optimization. We regard text guided 3D synthesis as a reasoning process by generating a scene graph via a graph diffusion network. Considering object functional co-occurrence, a new strategy is designed to better accommodate human-object interaction and avoidance, achieving human-aware 3D scene optimization. We conduct both qualitative and quantitative experiments to validate the effectiveness of our method in generating coherent 3D scene synthesis results.
- Abstract(参考訳): 本稿では,シーンのテキスト記述からのみ3次元屋内環境を出力する新しい生成手法を提案する。
現在の手法では、シーン合成を単なるレイアウト予測タスクとして扱うことが多く、重なり合うオブジェクトや過度に構造化されたシーンを持つ部屋へとつながり、生成された環境の実用性について限定的に考慮されている。
その代わりに、我々のアプローチは単純だが効果的な原理に基づいており、我々はシーン合成を条件に、人間によって使用可能な部屋を生成する。
この原理は、シーンを構成する物体と相互作用する3D人間を合成することによって実現される。
この人間中心のシーン生成が実現可能であれば、部屋のレイアウトは機能し、より一貫性のある3D構造に繋がる。
そこで本研究では, 推論, 3次元組立, 最適化からなる機能的3次元シーン合成手法を提案する。
テキストガイドによる3D合成を,グラフ拡散ネットワークを介してシーングラフを生成することによって推論プロセスとみなす。
オブジェクト機能共起を考慮し,人間と物体の相互作用と回避をよりよく対応し,人間を意識した3Dシーンの最適化を実現する。
我々は,コヒーレントな3次元シーン合成結果の生成における手法の有効性を検証するために,定性的かつ定量的な実験を行った。
関連論文リスト
- InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - Physically Plausible 3D Human-Scene Reconstruction from Monocular RGB
Image using an Adversarial Learning Approach [26.827712050966]
総合的な3次元人間シーン再構築の鍵となる課題は、単一の単眼RGB画像から物理的に可視な3Dシーンを生成することである。
本稿では、シーン要素の暗黙的特徴表現を用いて、人間と物体の物理的に妥当なアライメントを識別する。
既存の推論時間最適化手法とは異なり、この逆向きに訓練されたモデルを用いてシーンのフレームごとの3D再構成を行う。
論文 参考訳(メタデータ) (2023-07-27T01:07:15Z) - RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent
Geometry and Texture [80.0643976406225]
本稿では、強力な自然言語を利用して異なるスタイルの部屋を合成する「RoomDreamer」を提案する。
本研究は,入力シーン構造に整合した形状とテクスチャを同時に合成することの課題に対処する。
提案手法を検証するため,スマートフォンでスキャンした屋内シーンを大規模な実験に利用した。
論文 参考訳(メタデータ) (2023-05-18T22:57:57Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - Realistic Image Synthesis with Configurable 3D Scene Layouts [59.872657806747576]
本稿では,3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。
提案手法では, セマンティッククラスラベルを入力として3Dシーンを抽出し, 3Dシーンの描画ネットワークを訓練する。
訓練された絵画ネットワークにより、入力された3Dシーンのリアルな外観の画像を描画し、操作することができる。
論文 参考訳(メタデータ) (2021-08-23T09:44:56Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z) - Long-term Human Motion Prediction with Scene Context [60.096118270451974]
人間の動きを予測するための新しい3段階フレームワークを提案する。
提案手法はまず,まず複数の人間の動作目標を抽出し,各目標に向けて3次元人間の動作経路を計画し,最後に各経路に続く3次元人間のポーズシーケンスを予測する。
論文 参考訳(メタデータ) (2020-07-07T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。