論文の概要: Local 3D Editing via 3D Distillation of CLIP Knowledge
- arxiv url: http://arxiv.org/abs/2306.12570v1
- Date: Wed, 21 Jun 2023 21:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:02:53.155047
- Title: Local 3D Editing via 3D Distillation of CLIP Knowledge
- Title(参考訳): クリップ知識の3次元蒸留による局所3次元編集
- Authors: Junha Hyung, Sungwon Hwang, Daejin Kim, Hyunji Lee, Jaegul Choo
- Abstract要約: 3Dコンテンツ操作は多くの実世界のアプリケーションにおいて重要なコンピュータビジョンタスクである。
最近提案された3D GANはニューラルレーダランスフィールド(NeRF)を用いて多種多様な光リアルな3Dコンテンツを生成することができる
テキスト入力のみを必要とする局所編集型NeRF(LENeRF)を提案する。
- 参考スコア(独自算出の注目度): 26.429032648560018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D content manipulation is an important computer vision task with many
real-world applications (e.g., product design, cartoon generation, and 3D
Avatar editing). Recently proposed 3D GANs can generate diverse photorealistic
3D-aware contents using Neural Radiance fields (NeRF). However, manipulation of
NeRF still remains a challenging problem since the visual quality tends to
degrade after manipulation and suboptimal control handles such as 2D semantic
maps are used for manipulations. While text-guided manipulations have shown
potential in 3D editing, such approaches often lack locality. To overcome these
problems, we propose Local Editing NeRF (LENeRF), which only requires text
inputs for fine-grained and localized manipulation. Specifically, we present
three add-on modules of LENeRF, the Latent Residual Mapper, the Attention Field
Network, and the Deformation Network, which are jointly used for local
manipulations of 3D features by estimating a 3D attention field. The 3D
attention field is learned in an unsupervised way, by distilling the zero-shot
mask generation capability of CLIP to the 3D space with multi-view guidance. We
conduct diverse experiments and thorough evaluations both quantitatively and
qualitatively.
- Abstract(参考訳): 3Dコンテンツ操作は多くの実世界のアプリケーション(製品デザイン、漫画生成、3Dアバター編集など)で重要なコンピュータビジョンタスクである。
最近提案された3D GANは、Neural Radiance Field (NeRF)を用いて、多様な光リアルな3Dコンテンツを生成することができる。
しかし、2Dセマンティックマップなどの最適制御ハンドルが操作に使用されるなど、視覚的品質が低下する傾向にあるため、NeRFの操作は依然として困難な問題である。
テキストガイドによる操作は3d編集の可能性を秘めているが、そのような方法はしばしば局所性を欠いている。
これらの問題を克服するために、我々は、微細で局所的な操作にのみテキスト入力を必要とするローカル編集NeRF(LENeRF)を提案する。
具体的には,3次元注意場を推定することにより,3次元特徴の局所的な操作に共用する,lenerf,潜在残差マッパー,アテンションフィールドネットワーク,変形ネットワークの3つのアドオンモジュールを提案する。
マルチビュー誘導により,CLIPのゼロショットマスク生成能力を3次元空間に蒸留することにより,非教師なしの3Dアテンション場を学習する。
定量的および質的に多様な実験および徹底的な評価を行う。
関連論文リスト
- Revealing Directions for Text-guided 3D Face Editing [52.85632020601518]
3次元顔編集はマルチメディアにおいて重要な課題であり、様々な制御信号間での3次元顔モデルの操作を目的としている。
任意の属性記述に基づく3次元顔の生成と操作のためのテキスト汎用アプローチであるFace Clanを提案する。
本手法は,ユーザがテキスト記述で興味のある領域を直感的にカスタマイズできる,正確に制御可能な操作方法を提供する。
論文 参考訳(メタデータ) (2024-10-07T12:04:39Z) - iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。
我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-08-03T06:35:09Z) - ${M^2D}$NeRF: Multi-Modal Decomposition NeRF with 3D Feature Fields [33.168225243348786]
テキストベースと視覚パッチベースの編集が可能な単一モデルであるM2D$NeRF(M2D$NeRF)を提案する。
具体的には,教師の特徴を事前学習した視覚モデルと言語モデルから3次元意味的特徴量へ統合するために,マルチモーダルな特徴蒸留を用いる。
実世界の様々な場面における実験は,従来のNeRF法と比較して3次元シーン分解作業において優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-08T12:25:21Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。
SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。
我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文 参考訳(メタデータ) (2024-02-29T13:26:47Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - DM-NeRF: 3D Scene Geometry Decomposition and Manipulation from 2D Images [15.712721653893636]
DM-NeRFは、1つのパイプラインで複雑な3Dシーンを同時に再構築、分解、操作、レンダリングする最初のものである。
提案手法は,3次元オブジェクトを2次元ビューから正確に分解し,任意のオブジェクトを3次元空間で自由に操作することができる。
論文 参考訳(メタデータ) (2022-08-15T14:32:10Z) - Decomposing NeRF for Editing via Feature Field Distillation [14.628761232614762]
NeRFで表現されるシーンの編集は、基礎となるコネクショナリスト表現がオブジェクト指向や構成的ではないため、難しい。
本研究では,NeRFのセマンティックなシーン分解の問題に対処し,クエリに基づく局所的な編集を可能にする。
本稿では,市販の自己監督型2次元画像特徴抽出器の知識を,放射場と平行に最適化された3次元特徴場に抽出することを提案する。
論文 参考訳(メタデータ) (2022-05-31T07:56:09Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。