Fugu-MT 論文翻訳(概要): TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes

論文の概要: TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes

arxiv url: http://arxiv.org/abs/2312.04248v1
Date: Thu, 7 Dec 2023 12:10:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 15:07:10.429987
Title: TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes
Title（参考訳）: temo:マルチオブジェクトメッシュのためのテキスト駆動3dスタイライゼーションに向けて
Authors: Xuying Zhang and Bo-Wen Yin and Yuming Chen and Zheng Lin and Yunheng Li and Qibin Hou and Ming-Ming Cheng
Abstract要約: 我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
参考スコア（独自算出の注目度）: 67.5351491691866
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in the text-driven 3D stylization of a single object has been considerably promoted by CLIP-based methods. However, the stylization of multi-object 3D scenes is still impeded in that the image-text pairs used for pre-training CLIP mostly consist of an object. Meanwhile, the local details of multiple objects may be susceptible to omission due to the existing supervision manner primarily relying on coarse-grained contrast of image-text pairs. To overcome these challenges, we present a novel framework, dubbed TeMO, to parse multi-object 3D scenes and edit their styles under the contrast supervision at multiple levels. We first propose a Decoupled Graph Attention (DGA) module to distinguishably reinforce the features of 3D surface points. Particularly, a cross-modal graph is constructed to align the object points accurately and noun phrases decoupled from the 3D mesh and textual description. Then, we develop a Cross-Grained Contrast (CGC) supervision system, where a fine-grained loss between the words in the textual description and the randomly rendered images are constructed to complement the coarse-grained loss. Extensive experiments show that our method can synthesize high-quality stylized content and outperform the existing methods over a wide range of multi-object 3D meshes. Our code and results will be made publicly available
Abstract（参考訳）: テキスト駆動による1つのオブジェクトの3Dスタイリングの最近の進歩は、CLIPベースの手法によって著しく促進されている。しかし、マルチオブジェクトの3Dシーンのスタイリングは、CLIPの事前学習に使用される画像テキストペアが、主にオブジェクトで構成されていることを妨げている。一方、複数のオブジェクトの局所的な詳細は、画像テキストペアの粗いコントラストに主に依存している既存の監督方法により、省略される可能性がある。これらの課題を克服するために,マルチオブジェクト3dシーンを解析し,コントラスト監督下でスタイルを編集する,temoと呼ばれる新しいフレームワークを提案する。まず,3次元曲面点の特徴を識別的に補強するデカップリンググラフアテンション(DGA)モジュールを提案する。特に、3Dメッシュから切り離された名詞句とテキスト記述とを正確に整列するために、クロスモーダルグラフを構築する。次に,テキスト記述中の単語とランダムにレンダリングされた画像との粒度の損失を,粗粒度損失を補うように構築するクロスグレードコントラスト(cgc)監督システムを開発する。広範な実験により,高品質なスタイリゼーションコンテンツを合成し,既存の手法を広範囲のマルチオブジェクト3dメッシュに上回ることができることを示した。私たちのコードと結果は公開されます

関連論文リスト

NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文参考訳（メタデータ） (2025-04-20T14:39:27Z)
Toward Scene Graph and Layout Guided Complex 3D Scene Generation [31.396230860775415]
Scene GraphとLayout Guided 3D Scene Generation(GraLa3D)の新たなフレームワークを提案する。複雑な3Dシーンを記述するテキストプロンプトが与えられたとき、GraLa3Dはレイアウト境界ボックス情報を持つシーングラフ表現を使用してシーンをモデル化する。 GraLa3Dは、単一オブジェクトノードと複合スーパーノードでシーングラフを独自に構築する。
論文参考訳（メタデータ） (2024-12-29T14:21:03Z)
SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。 3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文参考訳（メタデータ） (2024-10-10T07:02:06Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。相補的な視点から3次元オブジェクトレベルの表現を開発する。次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文参考訳（メタデータ） (2023-11-03T06:05:36Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout [13.364394556439992]
テキストから3Dの形式は、AR/VRのための編集可能な3Dシーンを作成する上で重要な役割を果たす。最近の進歩は、テキストから3Dオブジェクト生成のための事前訓練された拡散モデルとニューラルラジアンス場(NeRF)を融合させる可能性を示している。編集可能な3Dシーンレイアウトとオブジェクト固有およびシーンワイドガイダンス機構を統合することで,CompoNeRFと呼ばれる新しいフレームワークを提案する。本フレームワークは,マルチビューCLIPスコア測定によって最大54%の改善を実現している。
論文参考訳（メタデータ） (2023-03-24T07:37:09Z)
TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文参考訳（メタデータ） (2023-03-23T13:53:16Z)
Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文参考訳（メタデータ） (2023-03-21T16:21:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。