論文の概要: InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement
- arxiv url: http://arxiv.org/abs/2604.19673v1
- Date: Tue, 21 Apr 2026 16:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.886277
- Title: InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement
- Title(参考訳): InHabit: スケーラブルな3Dヒューマンプレースメントのためのイメージファウンデーションモデルを活用する
- Authors: Nikita Kister, Pradyumna YM, István Sárándi, Jiayi Wang, Anna Khoreva, Gerard Pons-Moll,
- Abstract要約: InHabitは完全に自動化され、スケーラブルなデータジェネレータで、3Dシーンを人間と対話する。
これは、最初の大規模なフォトリアリスティックな3D人間とシーンのインタラクションデータセットを生成する。
知覚的ユーザスタディでは、私たちのデータは、最先端の78%のケースで好まれます。
- 参考スコア(独自算出の注目度): 28.74898620366903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training embodied agents to understand 3D scenes as humans do requires large-scale data of people meaningfully interacting with diverse environments, yet such data is scarce. Real-world motion capture is costly and limited to controlled settings, while existing synthetic datasets rely on simple geometric heuristics that ignore rich scene context. In contrast, 2D foundation models trained on internet-scale data have implicitly acquired commonsense knowledge of human-environment interactions. To transfer this knowledge into 3D, we introduce InHabit, a fully automatic and scalable data generator for populating 3D scenes with interacting humans. InHabit follows a render-generate-lift principle: given a rendered 3D scene, a vision-language model proposes contextually meaningful actions, an image-editing model inserts a human, and an optimization procedure lifts the edited result into physically plausible SMPL-X bodies aligned with the scene geometry. Applied to Habitat-Matterport3D, InHabit produces the first large-scale photorealistic 3D human-scene interaction dataset, containing 78K samples across 800 building-scale scenes with complete 3D geometry, SMPL-X bodies, and RGB images. Augmenting standard training data with our samples improves RGB-based 3D human-scene reconstruction and contact estimation, and in a perceptual user study our data is preferred in 78% of cases over the state of the art.
- Abstract(参考訳): 人間のように3Dシーンを理解するには、多様な環境と意味のある相互作用をする人々の大規模なデータが必要であるが、そのようなデータは少ない。
実世界のモーションキャプチャはコストが高く、制御された設定に限られるが、既存の合成データセットはリッチなシーンコンテキストを無視した単純な幾何学的ヒューリスティックに依存している。
対照的に、インターネット規模のデータに基づいて訓練された2Dファンデーションモデルは、人間と環境の相互作用に関する常識的知識を暗黙的に獲得している。
この知識を3Dに転送するために、人間と対話する3Dシーンを収集する、完全に自動化されスケーラブルなデータジェネレータInHabitを紹介した。
InHabitは、レンダリングされた3Dシーンが与えられたとき、視覚言語モデルは文脈的に意味のあるアクションを提案し、画像編集モデルは人間を挿入し、最適化手順は、編集結果を、シーン幾何学に整合した物理的に妥当なSMPL-Xボディに引き上げる。
Habitat-Matterport3Dに応用されたInHabitは、800のビルスケールシーンにわたる78Kサンプルと、完全な3D幾何学、SMPL-Xボディ、RGBイメージを含む、最初の大規模なフォトリアリスティックな3D人間とシーンのインタラクションデータセットを生成する。
サンプルを用いて標準トレーニングデータを増強することで,RGBを用いた3次元人物シーンの再現と接触推定が向上し,ユーザ調査では,最先端の症例よりも78%がデータに好まれる。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - Diffusion Models are Efficient Data Generators for Human Mesh Recovery [55.37787289869703]
生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。
我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。
われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - 3D Segmentation of Humans in Point Clouds with Synthetic Data [21.518379214837278]
本稿では,3次元人間の意味的セグメンテーション,インスタンスセグメンテーション,複数人体部分セグメンテーションの課題を提案する。
実際の3Dシーンと相互作用する合成人間のトレーニングデータを生成するためのフレームワークを提案する。
また,新しいトランスフォーマーモデルであるHuman3Dを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:21Z) - Learning Dense Correspondence from Synthetic Environments [27.841736037738286]
既存の方法では、実際の2D画像に手動でラベル付けされた人間のピクセルを3D表面にマッピングする。
本稿では,自動生成合成データを用いた2次元3次元人物マッピングアルゴリズムの訓練により,データ不足の問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-24T08:13:26Z) - UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body
Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。
既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文 参考訳(メタデータ) (2021-10-28T16:24:55Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。