論文の概要: TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes
- arxiv url: http://arxiv.org/abs/2312.04248v1
- Date: Thu, 7 Dec 2023 12:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:07:10.429987
- Title: TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes
- Title(参考訳): temo:マルチオブジェクトメッシュのためのテキスト駆動3dスタイライゼーションに向けて
- Authors: Xuying Zhang and Bo-Wen Yin and Yuming Chen and Zheng Lin and Yunheng
Li and Qibin Hou and Ming-Ming Cheng
- Abstract要約: 我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 67.5351491691866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in the text-driven 3D stylization of a single object has been
considerably promoted by CLIP-based methods. However, the stylization of
multi-object 3D scenes is still impeded in that the image-text pairs used for
pre-training CLIP mostly consist of an object. Meanwhile, the local details of
multiple objects may be susceptible to omission due to the existing supervision
manner primarily relying on coarse-grained contrast of image-text pairs. To
overcome these challenges, we present a novel framework, dubbed TeMO, to parse
multi-object 3D scenes and edit their styles under the contrast supervision at
multiple levels. We first propose a Decoupled Graph Attention (DGA) module to
distinguishably reinforce the features of 3D surface points. Particularly, a
cross-modal graph is constructed to align the object points accurately and noun
phrases decoupled from the 3D mesh and textual description. Then, we develop a
Cross-Grained Contrast (CGC) supervision system, where a fine-grained loss
between the words in the textual description and the randomly rendered images
are constructed to complement the coarse-grained loss. Extensive experiments
show that our method can synthesize high-quality stylized content and
outperform the existing methods over a wide range of multi-object 3D meshes.
Our code and results will be made publicly available
- Abstract(参考訳): テキスト駆動による1つのオブジェクトの3Dスタイリングの最近の進歩は、CLIPベースの手法によって著しく促進されている。
しかし、マルチオブジェクトの3Dシーンのスタイリングは、CLIPの事前学習に使用される画像テキストペアが、主にオブジェクトで構成されていることを妨げている。
一方、複数のオブジェクトの局所的な詳細は、画像テキストペアの粗いコントラストに主に依存している既存の監督方法により、省略される可能性がある。
これらの課題を克服するために,マルチオブジェクト3dシーンを解析し,コントラスト監督下でスタイルを編集する,temoと呼ばれる新しいフレームワークを提案する。
まず,3次元曲面点の特徴を識別的に補強するデカップリンググラフアテンション(DGA)モジュールを提案する。
特に、3Dメッシュから切り離された名詞句とテキスト記述とを正確に整列するために、クロスモーダルグラフを構築する。
次に,テキスト記述中の単語とランダムにレンダリングされた画像との粒度の損失を,粗粒度損失を補うように構築するクロスグレードコントラスト(cgc)監督システムを開発する。
広範な実験により,高品質なスタイリゼーションコンテンツを合成し,既存の手法を広範囲のマルチオブジェクト3dメッシュに上回ることができることを示した。
私たちのコードと結果は公開されます
関連論文リスト
- SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [45.70819890915097]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。