論文の概要: Shape from Semantics: 3D Shape Generation from Multi-View Semantics
- arxiv url: http://arxiv.org/abs/2502.00360v1
- Date: Sat, 01 Feb 2025 07:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:01.137115
- Title: Shape from Semantics: 3D Shape Generation from Multi-View Semantics
- Title(参考訳): セマンティックスからの形状:多視点セマンティックスによる3次元形状生成
- Authors: Liangchen Li, Caoliwen Wang, Yuqi Zhou, Bailin Deng, Juyong Zhang,
- Abstract要約: セマンティックスの形状」は、異なる視点から観察すると、幾何学と外観が意味論的に一致する3Dモデルを作成することができる。
我々のフレームワークは、複雑な詳細、よく構造化された幾何学、コヒーレントなテクスチャ、スムーズな遷移を持つメッシュを生成する。
- 参考スコア(独自算出の注目度): 30.969299308083723
- License:
- Abstract: We propose ``Shape from Semantics'', which is able to create 3D models whose geometry and appearance match given semantics when observed from different views. Traditional ``Shape from X'' tasks usually use visual input (e.g., RGB images or depth maps) to reconstruct geometry, imposing strict constraints that limit creative explorations. As applications, works like Shadow Art and Wire Art often struggle to grasp the embedded semantics of their design through direct observation and rely heavily on specific setups for proper display. To address these limitations, our framework uses semantics as input, greatly expanding the design space to create objects that integrate multiple semantic elements and are easily discernible by observers. Considering that this task requires a rich imagination, we adopt various generative models and structure-to-detail pipelines. Specifically, we adopt multi-semantics Score Distillation Sampling (SDS) to distill 3D geometry and appearance from 2D diffusion models, ensuring that the initial shape is consistent with the semantic input. We then use image restoration and video generation models to add more details as supervision. Finally, we introduce neural signed distance field (SDF) representation to achieve detailed shape reconstruction. Our framework generates meshes with complex details, well-structured geometry, coherent textures, and smooth transitions, resulting in visually appealing and eye-catching designs. Project page: https://shapefromsemantics.github.io
- Abstract(参考訳): 図形と外観が異なる視点から観察した場合に与えられた意味と一致するような3次元モデルを作成することができる「セマンティックスからのシェープ」を提案する。
伝統的な ``Shape from X'' タスクは通常、幾何学を再構築するために視覚入力(例えば RGB 画像や深度マップ)を使い、創造的な探索を制限する厳密な制約を課す。
アプリケーションとして、Shadow ArtやWire Artのような作品は、直接観察することでデザインの組み込みセマンティクスを理解するのに苦労し、適切な表示のための特定の設定に大きく依存することが多い。
これらの制約に対処するため、我々のフレームワークはセマンティクスを入力として使用し、設計空間を大きく拡張し、複数のセマンティクス要素を統合し、観察者によって容易に識別できるオブジェクトを作成する。
このタスクには豊富な想像力が必要であることを考慮し、様々な生成モデルと構造と詳細パイプラインを採用する。
具体的には,SDS(Score Distillation Smpling)を用いて3次元形状と外観を2次元拡散モデルから抽出し,初期形状と意味入力との整合性を確保する。
次に、画像復元とビデオ生成モデルを使用して、詳細を監督として追加します。
最後に、詳細な形状再構成を実現するために、SDF(Neural signed distance Field)表現を導入する。
我々のフレームワークは、複雑な細部、よく構造化された幾何学、コヒーレントなテクスチャ、スムーズな遷移を持つメッシュを生成し、視覚的に魅力的で目を引くデザインをもたらす。
プロジェクトページ: https://shapefromsemantics.github.io
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Facial Geometric Detail Recovery via Implicit Representation [147.07961322377685]
そこで本研究では,一眼の顔画像のみを用いて,テクスチャガイドを用いた幾何的細部復元手法を提案する。
提案手法は,高品質なテクスチャ補完と暗黙の面の強力な表現性を組み合わせたものである。
本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。
論文 参考訳(メタデータ) (2022-03-18T01:42:59Z) - Topologically Consistent Multi-View Face Inference Using Volumetric
Sampling [25.001398662643986]
ToFuは、幾何推論フレームワークで、アイデンティティと式をまたいだトポロジ的に一貫したメッシュを生成することができる。
新たなプログレッシブメッシュ生成ネットワークは、顔のトポロジ的構造を特徴量に埋め込む。
これらの高品質な資産は、アバターの作成、アニメーション、物理的にベースとしたスキンレンダリングのためのプロダクションスタジオで容易に利用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。