論文の概要: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- arxiv url: http://arxiv.org/abs/2509.21245v1
- Date: Thu, 25 Sep 2025 14:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.988224
- Title: Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
- Title(参考訳): Hunyuan3D-Omni:3Dアセットの制御可能な生成のための統一フレームワーク
- Authors: Team Hunyuan3D, :, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao,
- Abstract要約: Hunyuan3D-Omniは、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統一されたフレームワークである。
我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。
実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、生産の堅牢性も向上することが示された。
- 参考スコア(独自算出の注目度): 34.69062361489211
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in 3D-native generative models have accelerated asset creation for games, film, and design. However, most methods still rely primarily on image or text conditioning and lack fine-grained, cross-modal controls, which limits controllability and practical adoption. To address this gap, we present Hunyuan3D-Omni, a unified framework for fine-grained, controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images, Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose priors as conditioning signals, enabling precise control over geometry, topology, and pose. Instead of separate heads for each modality, our model unifies all signals in a single cross-modal architecture. We train with a progressive, difficulty-aware sampling strategy that selects one control modality per example and biases sampling toward harder signals (e.g., skeletal pose) while downweighting easier ones (e.g., point clouds), encouraging robust multi-modal fusion and graceful handling of missing inputs. Experiments show that these additional controls improve generation accuracy, enable geometry-aware transformations, and increase robustness for production workflows.
- Abstract(参考訳): 3Dネイティブな生成モデルの最近の進歩は、ゲーム、映画、デザインの資産創出を加速させている。
しかし、ほとんどのメソッドは画像やテキストのコンディショニングに大きく依存しており、粒度の細かいクロスモーダルコントロールが欠如しており、制御性と実践的採用が制限されている。
このギャップに対処するために、Hunyuan3D-Omniという、Hunyuan3D 2.1上に構築されたきめ細かい制御可能な3Dアセット生成のための統合フレームワークを紹介します。
画像に加えて、Hunyuan3D-Omniは点雲、ボクセル、バウンディングボックス、骨格のポーズを条件付け信号として受け入れ、幾何学、トポロジー、ポーズの正確な制御を可能にする。
モダリティごとにヘッドを分離する代わりに、我々のモデルは単一のクロスモーダルアーキテクチャで全ての信号を統一する。
サンプル毎に1つの制御モダリティを選択し、より難しい信号(例えば骨格ポーズ)に向かってサンプリングし、より簡単な信号(例えば点雲)を下降させ、堅牢なマルチモーダル融合を奨励し、欠落した入力を優雅に処理する、プログレッシブで難易度の高いサンプリング戦略を訓練する。
実験により、これらの追加制御により生成精度が向上し、幾何認識変換が可能となり、プロダクションワークフローの堅牢性も向上することが示された。
関連論文リスト
- UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - Controllable Human-centric Keyframe Interpolation with Generative Prior [55.16558476905587]
本稿では,PoseFuse3D Keyframe Interpolator(PoseFuse3D-KI)を紹介する。
我々は,PoseFuse3D-KIがCHKI-Videoの最先端のベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets [90.99212668875971]
Step1X-3Dは、データの不足、アルゴリズムの制限、エコシステムの断片化といった課題に対処するオープンフレームワークである。
拡散型テクスチャ合成モジュールとハイブリッドVAE-DiTジオメトリジェネレータを組み合わせた2段階の3Dネイティブアーキテクチャを提案する。
ベンチマークの結果は、既存のオープンソースメソッドを超える最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-05-12T16:56:30Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - DreamControl: Control-Based Text-to-3D Generation with 3D Self-Prior [97.694840981611]
本稿では,DreamControlという2段階の2Dリフトフレームワークを提案する。
制御ベースのスコア蒸留による微粒なオブジェクトを生成する。
DreamControlは、幾何学的一貫性とテクスチャ忠実度の両方の観点から、高品質な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2023-12-11T15:12:50Z) - LucidDreaming: Controllable Object-Centric 3D Generation [10.646855651524387]
本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから3次元生成を空間的,数値的に制御できるパイプラインを提案する。
LucidDreamingは、現在のアプローチと比較して、オブジェクトの配置精度と生成精度において優れた結果を得る。
論文 参考訳(メタデータ) (2023-11-30T18:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。