論文の概要: DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors
- arxiv url: http://arxiv.org/abs/2409.08278v1
- Date: Thu, 12 Sep 2024 17:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:24:38.764229
- Title: DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors
- Title(参考訳): Dreamhoi: 拡散前の3次元物体相互作用の主観的生成
- Authors: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab,
- Abstract要約: 人-物体相互作用(HOI)のゼロショット合成法であるDreamHOIを提案する。
我々は、何十億もの画像キャプチャーペアで訓練されたテキストと画像の拡散モデルを利用して、リアルなHOIを生成する。
提案手法は広範囲な実験を通じて検証し,現実的なHOIを生成する上での有効性を実証する。
- 参考スコア(独自算出の注目度): 4.697267141773321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs.
- Abstract(参考訳): 本研究では,人間の物体間相互作用(HOI)をゼロショット合成する新しい手法であるDreamHOIについて述べる。
このタスクは、現実世界のオブジェクトの様々なカテゴリとジオメトリと、多様なHOIを含むデータセットの不足によって複雑になる。
膨大なデータの必要性を回避するために、何十億もの画像キャプチャー対で訓練されたテキストと画像の拡散モデルを利用する。
これらのモデルから得られたスコア蒸留サンプリング(SDS)勾配を用いて、画像空間の編集を予測し、肌付きメッシュの調音を最適化する。
しかし、そのような勾配の局所的な性質のため、画像空間勾配を複雑な調音パラメータへ直接バックプロパゲートすることは効果がない。
これを解決するために、スキン付きメッシュの2つの暗黙的-明示的表現を導入し、(単純)神経放射場(NeRF)と(特異)骨格駆動メッシュの明瞭さを組み合わせた。
最適化中、暗黙の形式と明示的な形式の間で遷移し、メッシュの明瞭化を改良しながら、NeRF生成を接地する。
提案手法を広範囲な実験により検証し,現実的なHOIを生成する上での有効性を実証する。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - HOIDiffusion: Generating Realistic 3D Hand-Object Interaction Data [42.49031063635004]
本研究では,現実的かつ多様な3次元ハンドオブジェクトインタラクションデータを生成するためのHOIDiffusionを提案する。
本モデルは,3次元手対象幾何学構造とテキスト記述を画像合成の入力として用いた条件拡散モデルである。
生成した3Dデータを6次元オブジェクトのポーズ推定学習に適用し,認識システムの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-18T17:48:31Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Beyond the Contact: Discovering Comprehensive Affordance for 3D Objects from Pre-trained 2D Diffusion Models [8.933560282929726]
我々はComprehensive Affordance(ComA)という新しい余裕表現を導入する。
3Dオブジェクトメッシュが与えられたとき、ComAは相互作用する人間のメッシュにおける相対配向と頂点の近接の分布をモデル化する。
ComAは、連絡先ベースの価格のモデリングにおいて、人間のアノテーションに依存している競争相手よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-01-23T18:59:59Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - ASSIST: Interactive Scene Nodes for Scalable and Realistic Indoor
Simulation [17.34617771579733]
本稿では、合成および現実的なシミュレーションのためのパノプティクス表現として、オブジェクト指向神経放射場であるASSISTを提案する。
各オブジェクトの情報を統一的に格納する新しいシーンノードデータ構造は、イントラシーンとクロスシーンの両方でオンラインインタラクションを可能にする。
論文 参考訳(メタデータ) (2023-11-10T17:56:43Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - NeuralFusion: Neural Volumetric Rendering under Human-object
Interactions [46.70371238621842]
本稿では,スパース・コンシューマRGBDセンサを用いたボリューム・オブジェクトのキャプチャとレンダリングのためのニューラル・アプローチを提案する。
幾何学的モデリングでは,非剛性鍵体積融合を用いたニューラル暗黙的推論方式を提案する。
また,空間的領域と時間的領域の両方において,ボリュームと画像に基づくレンダリングを組み合わせた階層的ヒューマンオブジェクトテクスチャレンダリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T17:10:07Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。