論文の概要: 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation
- arxiv url: http://arxiv.org/abs/2212.01103v1
- Date: Fri, 2 Dec 2022 11:31:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 15:54:48.644992
- Title: 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation
- Title(参考訳): 3D-TOGO:テキストガイド型クロスカテゴリ3Dオブジェクト生成を目指して
- Authors: Zutao Jiang, Guangsong Lu, Xiaodan Liang, Jihua Zhu, Wei Zhang,
Xiaojun Chang, Hang Xu
- Abstract要約: 3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
- 参考スコア(独自算出の注目度): 104.31627153777605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided 3D object generation aims to generate 3D objects described by
user-defined captions, which paves a flexible way to visualize what we
imagined. Although some works have been devoted to solving this challenging
task, these works either utilize some explicit 3D representations (e.g., mesh),
which lack texture and require post-processing for rendering photo-realistic
views; or require individual time-consuming optimization for every single case.
Here, we make the first attempt to achieve generic text-guided cross-category
3D object generation via a new 3D-TOGO model, which integrates a text-to-views
generation module and a views-to-3D generation module. The text-to-views
generation module is designed to generate different views of the target 3D
object given an input caption. prior-guidance, caption-guidance and view
contrastive learning are proposed for achieving better view-consistency and
caption similarity. Meanwhile, a pixelNeRF model is adopted for the views-to-3D
generation module to obtain the implicit 3D neural representation from the
previously-generated views. Our 3D-TOGO model generates 3D objects in the form
of the neural radiance field with good texture and requires no time-cost
optimization for every single caption. Besides, 3D-TOGO can control the
category, color and shape of generated 3D objects with the input caption.
Extensive experiments on the largest 3D object dataset (i.e., ABO) are
conducted to verify that 3D-TOGO can better generate high-quality 3D objects
according to the input captions across 98 different categories, in terms of
PSNR, SSIM, LPIPS and CLIP-score, compared with text-NeRF and Dreamfields.
- Abstract(参考訳): テキストガイドによる3dオブジェクト生成は、ユーザー定義のキャプションで記述された3dオブジェクトを生成することを目的としています。
この困難な課題を解決するために、いくつかの作品が費やされてきたが、これらの作品は、テクスチャが無く、フォトリアリスティックなビューのレンダリングに後処理を必要とする、明示的な3d表現(例えばメッシュ)を利用するか、全てのケースで個別の時間消費最適化を必要とする。
本稿では,テキスト対ビュー生成モジュールとviews-to-3d生成モジュールを統合した新しい3d-togoモデルを用いて,汎用的なテキスト誘導型クロスカテゴリオブジェクト生成を実現する最初の試みを行う。
テキスト・ツー・ビュー生成モジュールは、入力キャプションが与えられたターゲット3Dオブジェクトの異なるビューを生成するように設計されている。
より優れたビュー一貫性とキャプション類似性を実現するために,事前指導,キャプション指導,コントラスト学習を提案する。
一方、ビュー・トゥ・3D生成モジュールに対して画素NeRFモデルを採用し、予め生成されたビューから暗黙的な3Dニューラル表現を得る。
我々の3D-TOGOモデルでは,各キャプションの時間的最適化を必要とせず,テクスチャのよいニューラルラディアンスフィールドの形で3Dオブジェクトを生成する。
また、3d-togoは、入力キャプションで生成された3dオブジェクトのカテゴリ、色、形状を制御できる。
最大3Dオブジェクトデータセット(つまりABO)の大規模な実験を行い、3D-TOGOがテキストNeRFやドリームフィールドに比べてPSNR、SSIM、LPIPS、CLIPスコアといった98のカテゴリにわたる入力キャプションに基づいて高品質な3Dオブジェクトを生成できることを検証する。
関連論文リスト
- View Selection for 3D Captioning via Diffusion Ranking [54.78058803763221]
Cap3D法は、3Dオブジェクトを2Dビューにレンダリングし、事前訓練されたモデルを用いてキャプションを行う。
3Dオブジェクトのレンダリングビューは、標準的な画像キャプションモデルのトレーニングデータから逸脱し、幻覚を引き起こす。
DiffuRankは、3Dオブジェクトとそれらの2Dレンダリングビューのアライメントを評価するために、事前訓練されたテキストから3Dモデルを利用する手法である。
論文 参考訳(メタデータ) (2024-04-11T17:58:11Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - PI3D: Efficient Text-to-3D Generation with Pseudo-Image Diffusion [18.82883336156591]
本稿では,テキストプロンプトから高品質な3D形状を数分で生成する,事前学習されたテキスト・画像拡散モデルの能力をフル活用するフレームワークPI3Dを提案する。
PI3Dはテキストからわずか3分で1つの3D形状を生成し、その品質は既存の3D生成モデルよりも大きなマージンで優れていることが検証される。
論文 参考訳(メタデータ) (2023-12-14T16:04:34Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。