論文の概要: 3D Highlighter: Localizing Regions on 3D Shapes via Text Descriptions
- arxiv url: http://arxiv.org/abs/2212.11263v1
- Date: Wed, 21 Dec 2022 18:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 15:40:12.539316
- Title: 3D Highlighter: Localizing Regions on 3D Shapes via Text Descriptions
- Title(参考訳): 3Dハイライダ:テキスト記述による3D形状上の領域のローカライズ
- Authors: Dale Decatur, Itai Lang, Rana Hanocka
- Abstract要約: 3D Highlighterは、テキストを入力としてメッシュ上のセマンティック領域をローカライズするテクニックである。
本システムでは,入力された3次元形状に非自明な概念をどこに配置すべきかを判断する能力を示す。
- 参考スコア(独自算出の注目度): 14.65300898522962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 3D Highlighter, a technique for localizing semantic regions on a
mesh using text as input. A key feature of our system is the ability to
interpret "out-of-domain" localizations. Our system demonstrates the ability to
reason about where to place non-obviously related concepts on an input 3D
shape, such as adding clothing to a bare 3D animal model. Our method
contextualizes the text description using a neural field and colors the
corresponding region of the shape using a probability-weighted blend. Our
neural optimization is guided by a pre-trained CLIP encoder, which bypasses the
need for any 3D datasets or 3D annotations. Thus, 3D Highlighter is highly
flexible, general, and capable of producing localizations on a myriad of input
shapes. Our code is publicly available at
https://github.com/threedle/3DHighlighter.
- Abstract(参考訳): 本稿では,テキストを入力としてメッシュ上に意味領域をローカライズする3D Highlighterを提案する。
本システムの重要な特徴は「ドメイン外」ローカライズを解釈する能力である。
本システムでは,裸の3d動物モデルに衣服を付加するなど,不適切な概念を入力した3d形状にどこに配置するかを判断する能力を示す。
提案手法は,ニューラルネットワークを用いてテキスト記述を文脈化し,確率重み付けブレンドを用いて形状の対応する領域を色付けする。
私たちのニューラル最適化は、トレーニング済みのCLIPエンコーダによってガイドされ、3Dデータセットや3Dアノテーションの必要性を回避します。
このように3dハイライト装置は、非常に柔軟で汎用的で、無数の入力形状上に位置決めを生成できる。
私たちのコードはhttps://github.com/threedle/3dhighlighterで公開しています。
関連論文リスト
- OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - High-Fidelity 3D Face Generation from Natural Language Descriptions [12.22081892575208]
本論では,1) 記述的テキストアノテーションによる高品質な3次元顔データ不足,2) 記述的言語空間と形状・外観空間との複雑なマッピング関係について論じる。
Describe3Dデータセットは、テキストから3Dの顔生成タスクのためのきめ細かいテキスト記述を備えた最初の大規模データセットである。
まず, 具体的記述と一致する3次元顔を生成するための2段階のフレームワークを提案し, 抽象的記述を用いて3次元形状とテクスチャ空間のパラメータを最適化し, 3次元顔モデルを洗練する。
論文 参考訳(メタデータ) (2023-05-05T06:10:15Z) - Text2Mesh: Text-Driven Neural Stylization for Meshes [18.435567297462416]
筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。
ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。
スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
論文 参考訳(メタデータ) (2021-12-06T18:23:29Z) - NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of
3D Scenes [25.26518805603798]
NeSFは、ポーズされたRGB画像のみから3Dセマンティックフィールドを生成する方法である。
本手法は,訓練に2次元の監督しか必要としない,真に密集した3次元シーンセグメンテーションを提供する最初の方法である。
論文 参考訳(メタデータ) (2021-11-25T21:44:54Z) - Tracking People with 3D Representations [78.97070307547283]
ビデオ中の複数の人物を追跡する新しい手法を提案する。
従来の2次元表現を用いたアプローチとは違って,3次元空間における人物の3次元表現を用いる。
これらの環境下での3次元表現は2次元表現よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2021-11-15T16:15:21Z) - Parameter-Efficient Person Re-identification in the 3D Space [51.092669618679615]
我々は3次元空間に2D画像を投影し、新しいパラメータ効率のOmniスケールグラフネットワーク(OG-Net)を導入し、3次元点雲から直接歩行者表現を学習する。
OG-Netはスパース3Dポイントが提供するローカル情報を効果的に活用し、その構造と外観情報を一貫性のある方法で活用する。
私たちは3D空間における人物の再識別を行う最初の試みの1つです。
論文 参考訳(メタデータ) (2020-06-08T13:20:33Z) - Local Implicit Grid Representations for 3D Scenes [24.331110387905962]
本稿では,拡張性と汎用性のために設計された新しい3次元形状表現であるLocal Implicit Grid Representationsを紹介する。
我々はオートエンコーダを訓練し、その大きさで3次元形状の局所的な作物の埋め込みを学習する。
次に,デコーダを形状最適化のコンポーネントとして使用し,重なり合う作物の正規格子上の潜伏符号の集合を解く。
論文 参考訳(メタデータ) (2020-03-19T18:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。