論文の概要: PASTA: Part-Aware Sketch-to-3D Shape Generation with Text-Aligned Prior
- arxiv url: http://arxiv.org/abs/2503.12834v1
- Date: Mon, 17 Mar 2025 05:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:03.797312
- Title: PASTA: Part-Aware Sketch-to-3D Shape Generation with Text-Aligned Prior
- Title(参考訳): PASTA: テキスト対応プリミティブによる部分認識型スケッチ・ツー・3次元形状生成
- Authors: Seunggwan Lee, Hwanhee Jung, Byoungsoo Koh, Qixing Huang, Sangho Yoon, Sangpil Kim,
- Abstract要約: PASTAは、ユーザスケッチと3D形状生成のためのテキスト記述をシームレスに統合する柔軟なアプローチである。
鍵となる考え方は、スケッチのセマンティック表現を強化するために、視覚言語モデルからのテキスト埋め込みを使用することである。
ISG-Netは、細かな詳細を処理するIndivGCNと、これらの詳細を部品に集約してオブジェクトの構造を洗練するPartGCNという2つのタイプのグラフ畳み込みネットワークを採用している。
- 参考スコア(独自算出の注目度): 19.59657766877692
- License:
- Abstract: A fundamental challenge in conditional 3D shape generation is to minimize the information loss and maximize the intention of user input. Existing approaches have predominantly focused on two types of isolated conditional signals, i.e., user sketches and text descriptions, each of which does not offer flexible control of the generated shape. In this paper, we introduce PASTA, the flexible approach that seamlessly integrates a user sketch and a text description for 3D shape generation. The key idea is to use text embeddings from a vision-language model to enrich the semantic representation of sketches. Specifically, these text-derived priors specify the part components of the object, compensating for missing visual cues from ambiguous sketches. In addition, we introduce ISG-Net which employs two types of graph convolutional networks: IndivGCN, which processes fine-grained details, and PartGCN, which aggregates these details into parts and refines the structure of objects. Extensive experiments demonstrate that PASTA outperforms existing methods in part-level editing and achieves state-of-the-art results in sketch-to-3D shape generation.
- Abstract(参考訳): 条件付き3次元形状生成における基本的な課題は、情報損失を最小化し、ユーザ入力の意図を最大化することである。
既存のアプローチは主に、ユーザスケッチとテキスト記述という2種類の独立した条件信号に焦点を合わせており、それぞれが生成した形状の柔軟な制御を提供していない。
本稿では3次元形状生成のためのユーザスケッチとテキスト記述をシームレスに統合するフレキシブルアプローチであるPASTAを紹介する。
鍵となる考え方は、スケッチのセマンティック表現を強化するために、視覚言語モデルからのテキスト埋め込みを使用することである。
具体的には、これらのテキスト由来のプリエントはオブジェクトの部分コンポーネントを指定し、曖昧なスケッチから欠落した視覚的手がかりを補う。
さらに、細かな詳細処理を行うIndivGCNと、これらの詳細を部品に集約してオブジェクトの構造を洗練するPartGCNという2種類のグラフ畳み込みネットワークを採用したISG-Netを紹介する。
広範囲な実験により、PASTAは既存の手法よりも高度な部分レベルの編集を行い、スケッチ・ツー・3D形状生成の最先端の結果が得られることが示された。
関連論文リスト
- Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation [37.93542778715304]
スケッチ誘導型テキストから3D生成フレームワーク(Sketch2NeRF)を提案し、3D生成にスケッチ制御を追加する。
本手法は,スケッチの類似性やテキストアライメントの観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-01-25T15:49:12Z) - Doodle Your 3D: From Abstract Freehand Sketches to Precise 3D Shapes [118.406721663244]
本稿では,抽象モデリングとクロスモーダル対応を容易にする,新しい部分レベルモデリング・アライメントフレームワークを提案する。
提案手法は,CLIPassoエッジマップと投影された3次元部分領域との対応性を確立することで,スケッチモデリングにシームレスに拡張する。
論文 参考訳(メタデータ) (2023-12-07T05:04:33Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - SENS: Part-Aware Sketch-based Implicit Neural Shape Modeling [124.3266213819203]
SENSは手描きスケッチから3Dモデルを生成し編集するための新しい手法である。
SENSはスケッチを分析し、部品をViTパッチエンコーディングにエンコードする。
SENSは部分再構成による精細化をサポートし、微調整とアーティファクトの除去を可能にする。
論文 参考訳(メタデータ) (2023-06-09T17:50:53Z) - TAPS3D: Text-Guided 3D Textured Shape Generation from Pseudo Supervision [114.56048848216254]
テキスト誘導型3次元形状生成器を疑似キャプションで訓練するための新しいフレームワークTAPS3Dを提案する。
レンダリングされた2D画像に基づいて,CLIP語彙から関連する単語を検索し,テンプレートを用いて擬似キャプションを構築する。
構築したキャプションは、生成された3次元形状の高レベルなセマンティック管理を提供する。
論文 参考訳(メタデータ) (2023-03-23T13:53:16Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。