論文の概要: Magic3DSketch: Create Colorful 3D Models From Sketch-Based 3D Modeling Guided by Text and Language-Image Pre-Training
- arxiv url: http://arxiv.org/abs/2407.19225v1
- Date: Sat, 27 Jul 2024 09:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:11:23.415118
- Title: Magic3DSketch: Create Colorful 3D Models From Sketch-Based 3D Modeling Guided by Text and Language-Image Pre-Training
- Title(参考訳): Magic3DSketch: テキストと言語画像による3Dモデリングから色とりどりの3Dモデルを作る
- Authors: Ying Zang, Yidong Han, Chaotao Ding, Jianqi Zhang, Tianrun Chen,
- Abstract要約: CAD(Computer-Aided Design)のような従来の手法は、しばしば労働集約的でスキルの要求が多すぎるため、初心者には難しい。
提案手法であるMagic3DSketchは,スケッチを符号化して3Dメッシュを予測し,テキスト記述でガイドする手法である。
また,本手法は既存のテキスト・ツー・3D手法と比較して制御性が高い。
- 参考スコア(独自算出の注目度): 2.9600148687385786
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The requirement for 3D content is growing as AR/VR application emerges. At the same time, 3D modelling is only available for skillful experts, because traditional methods like Computer-Aided Design (CAD) are often too labor-intensive and skill-demanding, making it challenging for novice users. Our proposed method, Magic3DSketch, employs a novel technique that encodes sketches to predict a 3D mesh, guided by text descriptions and leveraging external prior knowledge obtained through text and language-image pre-training. The integration of language-image pre-trained neural networks complements the sparse and ambiguous nature of single-view sketch inputs. Our method is also more useful and offers higher degree of controllability compared to existing text-to-3D approaches, according to our user study. Moreover, Magic3DSketch achieves state-of-the-art performance in both synthetic and real dataset with the capability of producing more detailed structures and realistic shapes with the help of text input. Users are also more satisfied with models obtained by Magic3DSketch according to our user study. Additionally, we are also the first, to our knowledge, add color based on text description to the sketch-derived shapes. By combining sketches and text guidance with the help of language-image pretrained models, our Magic3DSketch can allow novice users to create custom 3D models with minimal effort and maximum creative freedom, with the potential to revolutionize future 3D modeling pipelines.
- Abstract(参考訳): AR/VRアプリケーションが出現するにつれて、3Dコンテンツの要件は増大している。
CAD(Computer-Aided Design)のような従来の手法は労働集約的であり、スキルの要求が多すぎるため、初心者には難しい。
提案手法であるMagic3DSketchは、スケッチを符号化して3Dメッシュを予測し、テキスト記述によってガイドされ、テキストと言語イメージによる事前学習によって得られた外部の事前知識を活用する。
言語イメージの事前学習ニューラルネットワークの統合は、シングルビュースケッチ入力のスパースであいまいな性質を補完する。
ユーザ調査によると,本手法は既存のテキスト・ツー・3D手法と比較して,より有用であり,制御性が高い。
さらに、Magic3DSketchはテキスト入力の助けを借りてより詳細な構造と現実的な形状を生成できるため、合成データセットと実データセットの両方で最先端のパフォーマンスを実現する。
ユーザ調査によると、Magic3DSketchのモデルにも満足している。
さらに、スケッチ由来の形状にテキスト記述に基づく色を加えることも、私たちの知る限りでは初めてです。
Magic3DSketchは、スケッチとテキストのガイダンスと、言語イメージの事前訓練されたモデルの助けを組み合わせることで、初心者のユーザーが最小限の努力と最大限の創造的自由でカスタム3Dモデルを作成することができ、将来の3Dモデリングパイプラインに革命をもたらす可能性がある。
関連論文リスト
- Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Deep3DSketch+: Rapid 3D Modeling from Single Free-hand Sketches [15.426513559370086]
本稿では,1つのフリーハンドスケッチのみを用いて,複数のスケッチやビュー情報を入力せずに3次元モデリングを行う,新しいエンドツーエンドアプローチであるDeep3DSketch+を紹介する。
実験により, 合成データと実データの両方において, 最新技術(SOTA)の性能が有効であることを実証した。
論文 参考訳(メタデータ) (2023-09-22T17:12:13Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - Make Your Brief Stroke Real and Stereoscopic: 3D-Aware Simplified Sketch
to Portrait Generation [51.64832538714455]
既存の研究は2次元平面の像のみを固定ビューで生成し、その結果を鮮明にしない。
本稿では立体視による簡易スケッチ・トゥ・ポートレート(SSSP)について述べる。
我々の重要な洞察は、三面体ベースの3D認識生成モデルの事前知識を十分に活用できるスケッチ認識制約を設計することである。
論文 参考訳(メタデータ) (2023-02-14T06:28:42Z) - Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and
Text-to-Image Diffusion Models [44.34479731617561]
我々はCLIP誘導3次元最適化プロセスに明示的な3次元形状前処理を導入する。
テキストと画像のモダリティを直接、強力なテキストと画像の拡散モデルでブリッジする、シンプルで効果的なアプローチを提案する。
提案手法であるDream3Dは,視覚的品質と形状の精度に優れた想像的3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2022-12-28T18:23:47Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。