論文の概要: InterFusion: Text-Driven Generation of 3D Human-Object Interaction
- arxiv url: http://arxiv.org/abs/2403.15612v2
- Date: Tue, 16 Jul 2024 17:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 21:18:43.089445
- Title: InterFusion: Text-Driven Generation of 3D Human-Object Interaction
- Title(参考訳): インターフュージョン:3次元ヒューマンオブジェクトインタラクションのテキスト駆動生成
- Authors: Sisi Dai, Wenhao Li, Haowen Sun, Haibin Huang, Chongyang Ma, Hui Huang, Kai Xu, Ruizhen Hu,
- Abstract要約: ゼロショットテキスト・ツー・3D方式でテキスト記述から3次元オブジェクト間相互作用(HOI)を生成する複雑な課題に取り組む。
本稿では,HOI生成に特化して設計された2段階フレームワークであるInterFusionを紹介する。
実験の結果,InterFusionは3次元HOI生成において既存の最先端手法よりも優れていたことが確認された。
- 参考スコア(独自算出の注目度): 38.380079482331745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we tackle the complex task of generating 3D human-object interactions (HOI) from textual descriptions in a zero-shot text-to-3D manner. We identify and address two key challenges: the unsatisfactory outcomes of direct text-to-3D methods in HOI, largely due to the lack of paired text-interaction data, and the inherent difficulties in simultaneously generating multiple concepts with complex spatial relationships. To effectively address these issues, we present InterFusion, a two-stage framework specifically designed for HOI generation. InterFusion involves human pose estimations derived from text as geometric priors, which simplifies the text-to-3D conversion process and introduces additional constraints for accurate object generation. At the first stage, InterFusion extracts 3D human poses from a synthesized image dataset depicting a wide range of interactions, subsequently mapping these poses to interaction descriptions. The second stage of InterFusion capitalizes on the latest developments in text-to-3D generation, enabling the production of realistic and high-quality 3D HOI scenes. This is achieved through a local-global optimization process, where the generation of human body and object is optimized separately, and jointly refined with a global optimization of the entire scene, ensuring a seamless and contextually coherent integration. Our experimental results affirm that InterFusion significantly outperforms existing state-of-the-art methods in 3D HOI generation.
- Abstract(参考訳): 本研究では,ゼロショットテキスト・ツー・3D方式でテキスト記述から3次元オブジェクト間インタラクション(HOI)を生成する複雑な課題に取り組む。
HOIにおける直接テキスト・ツー・3D手法の不満足な結果は主にペアのテキスト・インタラクションデータがないことによるものであり、複雑な空間的関係を持つ複数の概念を同時に生成する上で固有の困難さである。
これらの問題を効果的に解決するために,HOI生成用に設計された2段階のフレームワークであるInterFusionを提案する。
インターフュージョンは、テキストから派生した人間のポーズ推定を幾何学的先行として含み、テキストから3Dへの変換プロセスを単純化し、正確なオブジェクト生成のための追加の制約を導入する。
最初の段階では、InterFusionは、幅広いインタラクションを描写した合成画像データセットから3Dの人間のポーズを抽出し、その後、これらのポーズをインタラクション記述にマッピングする。
InterFusionの第2段階は、テキストから3D生成の最新の発展を活かし、現実的で高品質な3D HOIシーンを制作できる。
これは、人体とオブジェクトの生成を別々に最適化し、シーン全体のグローバルな最適化と共同で洗練し、シームレスでコンテキスト的に一貫性のある統合を保証する、ローカル・グローバルな最適化プロセスによって達成される。
実験の結果,InterFusionは3次元HOI生成において既存の最先端手法よりも優れていたことが確認された。
関連論文リスト
- BIFRÖST: 3D-Aware Image compositing with Language Instructions [27.484947109237964]
Bifr"ostは、命令ベースの画像合成を実行するために拡散モデルに基づいて構築された、新しい3D対応フレームワークである。
Bifr"ostは、MLLMを2.5D位置予測器として訓練し、デプスマップを生成プロセス中に余分な条件として統合することで問題に対処する。
論文 参考訳(メタデータ) (2024-10-24T18:35:12Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - Interactive3D: Create What You Want by Interactive 3D Generation [13.003964182554572]
我々はインタラクティブな3D生成のための革新的なフレームワークであるInteractive3Dを紹介した。
実験の結果,Interactive3Dは3D生成の制御性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-25T11:06:57Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance Fields [92.14328581392633]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。