論文の概要: Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2505.05505v1
- Date: Wed, 07 May 2025 04:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.998661
- Title: Apply Hierarchical-Chain-of-Generation to Complex Attributes Text-to-3D Generation
- Title(参考訳): 複合属性への階層的連鎖生成の適用によるテキスト・ツー・3D生成
- Authors: Yiming Qin, Zhu Xu, Yang Liu,
- Abstract要約: 本稿では,複雑な属性を持つ属性に忠実な3Dオブジェクトを生成する手法を提案する。
まず、まずコンポーネントを粗く作成し、それからターゲット領域のローカライゼーションとそれに対応する3Dガウスカーネル最適化によって属性を正確にバインドする。
実験により、HCoGは複雑な属性を持つ構造的コヒーレントで属性に忠実な3Dオブジェクトを生成することが確認された。
- 参考スコア(独自算出の注目度): 6.204800717601184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-3D models can render high-quality assets, yet they still stumble on objects with complex attributes. The key obstacles are: (1) existing text-to-3D approaches typically lift text-to-image models to extract semantics via text encoders, while the text encoder exhibits limited comprehension ability for long descriptions, leading to deviated cross-attention focus, subsequently wrong attribute binding in generated results. (2) Occluded object parts demand a disciplined generation order and explicit part disentanglement. Though some works introduce manual efforts to alleviate the above issues, their quality is unstable and highly reliant on manual information. To tackle above problems, we propose a automated method Hierarchical-Chain-of-Generation (HCoG). It leverages a large language model to decompose the long description into blocks representing different object parts, and orders them from inside out according to occlusions, forming a hierarchical chain. Within each block we first coarsely create components, then precisely bind attributes via target-region localization and corresponding 3D Gaussian kernel optimization. Between blocks, we introduce Gaussian Extension and Label Elimination to seamlessly generate new parts by extending new Gaussian kernels, re-assigning semantic labels, and eliminating unnecessary kernels, ensuring that only relevant parts are added without disrupting previously optimized parts. Experiments confirm that HCoG yields structurally coherent, attribute-faithful 3D objects with complex attributes. The code is available at https://github.com/Wakals/GASCOL .
- Abstract(参考訳): 最近のテキストから3Dモデルでは、高品質なアセットをレンダリングできるが、複雑な属性を持つオブジェクトをいじっている。
1)既存のテキストから3Dへのアプローチは、テキストエンコーダを介して意味を抽出するためにテキストから画像モデルを持ち上げるのが一般的であるが、テキストエンコーダは長い記述に対して限定的な理解能力を示す。
2)付加対象部品は、規則化された生成順序及び明示的な部分のゆがみを要求する。
上記の問題を緩和するために手作業を導入する作品もあるが、その品質は不安定であり、手作業の情報に非常に依存している。
上記の問題に対処するため,HCoG (Hierarchical-Chain-of-Generation) の自動化手法を提案する。
これは大きな言語モデルを利用して、長い記述を異なるオブジェクト部品を表すブロックに分解し、オクルージョンに従って内部から命令し、階層的な連鎖を形成する。
各ブロック内で、まずコンポーネントを粗く作成し、それからターゲット領域のローカライゼーションとそれに対応する3Dガウスカーネル最適化を通じて属性を正確にバインドします。
ブロック間において、新しいガウスカーネルを拡張し、セマンティックラベルを再割り当てし、不要なカーネルを排除することで、新しいパーツをシームレスに生成するガウス拡張とラベル除去を導入する。
実験により、HCoGは複雑な属性を持つ構造的コヒーレントで属性に忠実な3Dオブジェクトを生成することが確認された。
コードはhttps://github.com/Wakals/GASCOL で公開されている。
関連論文リスト
- Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian Splatting [86.15347226865826]
We design an new end-to-end object-aware lifting approach, called Unified-Lift。
コントラスト損失を用いて学習したガウスレベルの機能を各ガウス点に拡張し、インスタンス情報をエンコードする。
LERF-Masked、Replica、Messy Roomsの3つのベンチマークで実験を行った。
論文 参考訳(メタデータ) (2025-03-18T08:42:23Z) - Chirpy3D: Creative Fine-grained 3D Object Fabrication via Part Sampling [128.23917788822948]
Chirpy3Dは、ゼロショット設定で微細な3Dオブジェクトを生成するための新しいアプローチである。
モデルは、可塑性な3D構造を推測し、きめ細かい細部を捉え、新しい物体に一般化する必要がある。
我々の実験では、Cirpy3Dは、高品質できめ細かな細部を持つ創造的な3Dオブジェクトを生成する既存の手法を超越していることが示されている。
論文 参考訳(メタデータ) (2025-01-07T21:14:11Z) - CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians [97.15119679296954]
CompGS は 3D Gaussian Splatting (GS) を用いた,効率的なテキストから3Dコンテンツ生成のための新しい生成フレームワークである。
CompGSは簡単に3D編集に拡張でき、シーン生成を容易にする。
論文 参考訳(メタデータ) (2024-10-28T04:35:14Z) - Hyper-3DG: Text-to-3D Gaussian Generation via Hypergraph [20.488040789522604]
本稿では,ハイパーグラフ(Hyper-3DG)を用いた3次元ガウス生成法を提案する。
本フレームワークは, 凝集度を最適化し, 劣化を効果的に回避し, 微細に生成した3Dオブジェクトの創出を可能にする。
論文 参考訳(メタデータ) (2024-03-14T09:59:55Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Iterative Superquadric Recomposition of 3D Objects from Multiple Views [77.53142165205283]
2次元ビューから直接3次元スーパークワッドリックを意味部品として用いたオブジェクトを再構成するフレームワークISCOを提案する。
我々のフレームワークは、再構成エラーが高い場合に、反復的に新しいスーパークワッドリックを追加します。
これは、野生の画像からでも、より正確な3D再構成を提供する。
論文 参考訳(メタデータ) (2023-09-05T10:21:37Z) - CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout [13.364394556439992]
テキストから3Dの形式は、AR/VRのための編集可能な3Dシーンを作成する上で重要な役割を果たす。
最近の進歩は、テキストから3Dオブジェクト生成のための事前訓練された拡散モデルとニューラルラジアンス場(NeRF)を融合させる可能性を示している。
編集可能な3Dシーンレイアウトとオブジェクト固有およびシーンワイドガイダンス機構を統合することで,CompoNeRFと呼ばれる新しいフレームワークを提案する。
本フレームワークは,マルチビューCLIPスコア測定によって最大54%の改善を実現している。
論文 参考訳(メタデータ) (2023-03-24T07:37:09Z) - MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes [89.75025195440287]
既存の手法では、対象の特徴学習の副産物のような関係を、特にそれを符号化することなく扱うことができる。
より記述的で包括的なキャプションを生成するためのマルチオーダーリレーションマイニングモデルMOREを提案する。
我々のMOREは、複雑な関係を限られた数の基本関係から導出できるため、進行的にオブジェクト関係を符号化する。
論文 参考訳(メタデータ) (2022-03-10T07:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。