論文の概要: COMOGen: A Controllable Text-to-3D Multi-object Generation Framework
- arxiv url: http://arxiv.org/abs/2409.00590v1
- Date: Sun, 1 Sep 2024 02:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:43:27.564272
- Title: COMOGen: A Controllable Text-to-3D Multi-object Generation Framework
- Title(参考訳): COMOGen: 制御可能なテキストから3次元のマルチオブジェクト生成フレームワーク
- Authors: Shaorong Sun, Shuchao Pang, Yazhou Yao, Xiaoshui Huang,
- Abstract要約: 本稿では,テキストから3次元のマルチオブジェクト生成フレームワークであるCOMOGenを紹介する。
COMOGenは、レイアウトとマルチビュー事前知識の蒸留により、複数の3Dオブジェクトを同時に生成することを可能にする。
総合的な実験は、最先端の手法と比較して、我々のアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 22.05619100307402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The controllability of 3D object generation methods is achieved through input text. Existing text-to-3D object generation methods primarily focus on generating a single object based on a single object description. However, these methods often face challenges in producing results that accurately correspond to our desired positions when the input text involves multiple objects. To address the issue of controllability in generating multiple objects, this paper introduces COMOGen, a COntrollable text-to-3D Multi-Object Generation framework. COMOGen enables the simultaneous generation of multiple 3D objects by the distillation of layout and multi-view prior knowledge. The framework consists of three modules: the layout control module, the multi-view consistency control module, and the 3D content enhancement module. Moreover, to integrate these three modules as an integral framework, we propose Layout Multi-view Score Distillation, which unifies two prior knowledge and further enhances the diversity and quality of generated 3D content. Comprehensive experiments demonstrate the effectiveness of our approach compared to the state-of-the-art methods, which represents a significant step forward in enabling more controlled and versatile text-based 3D content generation.
- Abstract(参考訳): 3次元オブジェクト生成法の可制御性は入力テキストによって達成される。
既存のテキストから3Dオブジェクトを生成する方法は、主に単一のオブジェクト記述に基づいて単一のオブジェクトを生成することに焦点を当てている。
しかし、これらの手法は、入力テキストが複数のオブジェクトを含む場合、所望の位置と正確に一致する結果を生成する上で、しばしば困難に直面する。
本稿では,複数のオブジェクトを生成する際の制御性の問題に対処するため,Controllable Text-to-3D Multi-Object GenerationフレームワークであるCOMOGenを紹介する。
COMOGenは、レイアウトとマルチビュー事前知識の蒸留により、複数の3Dオブジェクトを同時に生成することを可能にする。
フレームワークは、レイアウト制御モジュール、マルチビュー一貫性制御モジュール、および3Dコンテンツ拡張モジュールの3つのモジュールで構成されている。
さらに,これら3つのモジュールを統合的なフレームワークとして統合するために,2つの事前知識を統一し,生成した3Dコンテンツの多様性と品質をさらに向上させるレイアウト多視点スコア蒸留を提案する。
総合的な実験は、より制御され、多目的なテキストベースの3Dコンテンツ生成を可能にするための重要な一歩である最先端の手法と比較して、我々のアプローチの有効性を実証する。
関連論文リスト
- Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with
Large Language Models [71.2931570433261]
我々は,Large Language Model(LLM)を活用した統合フレームワークであるUni3D-LLMを導入し,ポイントクラウドシーン内での3次元認識,生成,編集のタスクを統合する。
Uni3D-LLMは自然言語の表現力を活用し、3Dオブジェクトの生成と編集の正確なコマンドを可能にする。
論文 参考訳(メタデータ) (2024-01-09T06:20:23Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - ControlDreamer: Blending Geometry and Style in Text-to-3D [34.92628800597151]
我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
論文 参考訳(メタデータ) (2023-12-02T13:04:54Z) - Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding [57.64806066986975]
3D Visual Groundingはテキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
ゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-11-26T19:01:14Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。