論文の概要: SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds
- arxiv url: http://arxiv.org/abs/2312.09246v1
- Date: Thu, 14 Dec 2023 18:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:16:02.742892
- Title: SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds
- Title(参考訳): SHAP-EDITOR:命令誘導3D編集
- Authors: Minghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi
- Abstract要約: Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
- 参考スコア(独自算出の注目度): 73.91114735118298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel feed-forward 3D editing framework called Shap-Editor.
Prior research on editing 3D objects primarily concentrated on editing
individual objects by leveraging off-the-shelf 2D image editing networks. This
is achieved via a process called distillation, which transfers knowledge from
the 2D network to 3D assets. Distillation necessitates at least tens of minutes
per asset to attain satisfactory editing results, and is thus not very
practical. In contrast, we ask whether 3D editing can be carried out directly
by a feed-forward network, eschewing test-time optimisation. In particular, we
hypothesise that editing can be greatly simplified by first encoding 3D objects
in a suitable latent space. We validate this hypothesis by building upon the
latent space of Shap-E. We demonstrate that direct 3D editing in this space is
possible and efficient by building a feed-forward editor network that only
requires approximately one second per edit. Our experiments show that
Shap-Editor generalises well to both in-distribution and out-of-distribution 3D
assets with different prompts, exhibiting comparable performance with methods
that carry out test-time optimisation for each edited instance.
- Abstract(参考訳): shap-editorと呼ばれる新しいフィードフォワード3d編集フレームワークを提案する。
従来の3Dオブジェクトの編集は、市販の2D画像編集ネットワークを活用して、個々のオブジェクトの編集に集中していた。
これは蒸留と呼ばれるプロセスによって実現され、2Dネットワークから3D資産に知識を伝達する。
蒸留は、十分な編集結果を得るために1資産につき少なくとも10分必要であり、あまり実用的ではない。
対照的に、3d編集はフィードフォワードネットワークによって直接実施可能か、テスト時間最適化を回避できるかを問う。
特に,まず適切な潜在空間に3dオブジェクトをエンコードすることで編集を大幅に単純化できると仮定する。
この仮説をShap-Eの潜在空間上に構築することで検証する。
編集1秒あたり1秒程度しか必要としないフィードフォワードエディタネットワークを構築することで,この空間での直接3D編集が可能かつ効率的であることを示す。
実験の結果,Shap-Editorは,各編集インスタンスに対してテスト時間最適化を行う手法を用いて,異なるプロンプトで,分布内および分布外の両方の3Dアセットを一般化することがわかった。
関連論文リスト
- Real-time 3D-aware Portrait Editing from a Single Image [114.97405659269198]
本研究は,与えられたプロンプトに従って顔画像を効率よく編集できる3DPEを提示する。
ライトウェイトモジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから抽出され、顔形状とオープン語彙編集能力の事前知識を提供する。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - SERF: Fine-Grained Interactive 3D Segmentation and Editing with Radiance
Fields [97.63648347686456]
放射場を用いた対話型3Dセグメンテーションと編集アルゴリズムを新たに導入し,これをSERFと呼ぶ。
提案手法では,マルチビューアルゴリズムと事前学習した2Dモデルを統合することにより,ニューラルネットワーク表現を生成する。
この表現に基づいて,局所的な情報を保存し,変形に頑健な新しい表面レンダリング技術を導入する。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - Plasticine3D: Non-rigid 3D editting with text guidance [24.75903764018142]
プラスチック3Dは、汎用的で、高忠実で、フォトリアリスティックで、制御可能な非剛性編集パイプラインである。
本研究は, 編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し, より詳細な, フォトリアリスティックな結果を得る。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文 参考訳(メタデータ) (2023-12-13T23:27:17Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。