論文の概要: T2TD: Text-3D Generation Model based on Prior Knowledge Guidance
- arxiv url: http://arxiv.org/abs/2305.15753v1
- Date: Thu, 25 May 2023 06:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:05:26.295359
- Title: T2TD: Text-3D Generation Model based on Prior Knowledge Guidance
- Title(参考訳): T2TD:事前知識誘導に基づくテキスト3次元生成モデル
- Authors: Weizhi Nie, Ruidong Chen, Weijie Wang, Bruno Lepri, Nicu Sebe
- Abstract要約: 本稿では,3次元生成モデルの性能向上のための先行知識として,関連した形状やテキスト情報を導入した新しいテキスト3D生成モデル(T2TD)を提案する。
提案手法は,3次元モデル生成精度を大幅に向上し,text2shapeデータセット上でSOTA法よりも優れる。
- 参考スコア(独自算出の注目度): 74.32278935880018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, 3D models have been utilized in many applications, such as
auto-driver, 3D reconstruction, VR, and AR. However, the scarcity of 3D model
data does not meet its practical demands. Thus, generating high-quality 3D
models efficiently from textual descriptions is a promising but challenging way
to solve this problem. In this paper, inspired by the ability of human beings
to complement visual information details from ambiguous descriptions based on
their own experience, we propose a novel text-3D generation model (T2TD), which
introduces the related shapes or textual information as the prior knowledge to
improve the performance of the 3D generation model. In this process, we first
introduce the text-3D knowledge graph to save the relationship between 3D
models and textual semantic information, which can provide the related shapes
to guide the target 3D model generation. Second, we integrate an effective
causal inference model to select useful feature information from these related
shapes, which removes the unrelated shape information and only maintains
feature information that is strongly relevant to the textual description.
Meanwhile, to effectively integrate multi-modal prior knowledge into textual
information, we adopt a novel multi-layer transformer structure to
progressively fuse related shape and textual information, which can effectively
compensate for the lack of structural information in the text and enhance the
final performance of the 3D generation model. The final experimental results
demonstrate that our approach significantly improves 3D model generation
quality and outperforms the SOTA methods on the text2shape datasets.
- Abstract(参考訳): 近年,auto-driver,3d reconstruction, vr, arなど,多くのアプリケーションで3dモデルが使用されている。
しかし、3dモデルデータの不足はその実用上の要求を満たしていない。
したがって、テキスト記述から高品質な3Dモデルを生成することは、この問題を解決するには有望だが挑戦的な方法である。
本稿では,人間が自身の経験に基づいてあいまいな記述から視覚情報の詳細を補完する能力に着想を得て,関連する形状やテクスト情報を事前知識として導入し,3次元生成モデルの性能を向上させる新しいテクスト3d生成モデル(t2td)を提案する。
本稿では,まず3dモデルとテキスト意味情報の関係を保存するための3d知識グラフについて紹介する。
第2に,これらの関連形状から有用な特徴情報を選択するための効果的な因果推論モデルを統合することで,無関係な形状情報を除去し,テキスト記述に強く関連する特徴情報のみを保持する。
一方,マルチモーダルな事前知識をテキスト情報に効果的に統合するために,関連した形状やテクスチャ情報を段階的に融合する新しい多層トランスフォーマー構造を採用し,テキスト内の構造情報の欠如を効果的に補償し,3次元生成モデルの最終性能を向上させる。
実験結果から,本手法は3次元モデル生成精度を大幅に向上し,テキスト2シェープデータセット上でのSOTA法よりも優れていた。
関連論文リスト
- Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion [59.00571588016896]
3Dモデリングでは、デザイナはしばしば既存の3Dモデルを使って新しいものを作成する。
このプラクティスは、参照付加3D生成に拡散を利用する新しい生成モデルであるPhidiasの開発にインスピレーションを与えている。
論文 参考訳(メタデータ) (2024-09-17T17:59:33Z) - 3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文 参考訳(メタデータ) (2024-08-25T09:31:22Z) - Text-to-3D Shape Generation [18.76771062964711]
テキストから3Dの形状生成が可能な計算システムは、一般的な想像力を魅了している。
本稿では,背景文献を要約するテキスト・ツー・3次元形状生成を可能にする基礎技術と手法について調査する。
そこで本研究では,テキスト・ツー・3次元形状生成に関する最近の研究の体系的分類を,必要な監視データの種類に基づいて導出した。
論文 参考訳(メタデータ) (2024-03-20T04:03:44Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。