論文の概要: Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D
- arxiv url: http://arxiv.org/abs/2603.12126v1
- Date: Thu, 12 Mar 2026 16:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.214488
- Title: Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D
- Title(参考訳): Hoi3DGen: 高品質なヒューマンオブジェクトインタラクションを3Dで生成する
- Authors: Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll,
- Abstract要約: Hoi3DGenは、入力インタラクション記述を正確に追従する、人間とオブジェクトのインタラクションの高品質なテクスチャメッシュを生成するフレームワークである。
本手法は,テキストの一貫性が4~15倍,3次元モデル品質が3~7倍に向上する。
- 参考スコア(独自算出の注目度): 29.37815662492805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.
- Abstract(参考訳): テキストからの3Dヒューマンオブジェクトインタラクションのモデリングと生成は、AR、XR、ゲームにおけるアプリケーションにとって不可欠である。
既存のアプローチは、しばしばテキスト・ツー・イメージのモデルからのスコアの蒸留に頼っているが、その結果はヤヌスの問題に悩まされ、高品質な相互作用データが不足しているため、テキストのプロンプトに忠実に従わない。
入力インタラクション記述を正確に追従する,人間-オブジェクトインタラクションの高品質なテクスチャメッシュを生成するフレームワークであるHoi3DGenを紹介する。
まず,マルチモーダルな大言語モデルを利用して,現実的かつ高品質な対話データをキュレートし,その上で,対話の忠実さのオーダー・オブ・マグニチュード向上を実現する,完全なテキスト・ツー・3Dパイプラインを作成する。
提案手法は,テキストの一貫性が4~15倍,3次元モデル品質が3~7倍に向上し,高品質な3次元生成を維持しつつ,多様なカテゴリやインタラクションタイプに強い一般化を示す。
関連論文リスト
- 3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models [94.48803082248872]
3D世代は急速に進歩しているが、3D評価の開発はペースを保っていない。
3DGen-Arenaは、公開ユーザと専門家アノテータの両方から人間の好みを収集する統合プラットフォームである。
このデータセットを用いて、CLIPベースのスコアモデルである3DGen-ScoreとMLLMベースの自動評価器である3DGen-Evalをさらに訓練する。
論文 参考訳(メタデータ) (2025-03-27T17:53:00Z) - InterFusion: Text-Driven Generation of 3D Human-Object Interaction [38.380079482331745]
ゼロショットテキスト・ツー・3D方式でテキスト記述から3次元オブジェクト間相互作用(HOI)を生成する複雑な課題に取り組む。
本稿では,HOI生成に特化して設計された2段階フレームワークであるInterFusionを紹介する。
実験の結果,InterFusionは3次元HOI生成において既存の最先端手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-03-22T20:49:26Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion Priors [26.0337715783954]
DiffusionGAN3Dは、3D GANと拡散前処理を組み合わせることで、テキスト誘導型3Dドメイン適応と生成を促進する。
提案フレームワークはドメイン適応とテキスト・トゥ・アバタータスクの両方において優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T05:46:26Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。