Fugu-MT 論文翻訳(概要): SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

論文の概要: SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

arxiv url: http://arxiv.org/abs/2312.09246v1
Date: Thu, 14 Dec 2023 18:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 20:16:02.742892
Title: SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds
Title（参考訳）: SHAP-EDITOR:命令誘導3D編集
Authors: Minghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi
Abstract要約: Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
参考スコア（独自算出の注目度）: 73.91114735118298
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a novel feed-forward 3D editing framework called Shap-Editor. Prior research on editing 3D objects primarily concentrated on editing individual objects by leveraging off-the-shelf 2D image editing networks. This is achieved via a process called distillation, which transfers knowledge from the 2D network to 3D assets. Distillation necessitates at least tens of minutes per asset to attain satisfactory editing results, and is thus not very practical. In contrast, we ask whether 3D editing can be carried out directly by a feed-forward network, eschewing test-time optimisation. In particular, we hypothesise that editing can be greatly simplified by first encoding 3D objects in a suitable latent space. We validate this hypothesis by building upon the latent space of Shap-E. We demonstrate that direct 3D editing in this space is possible and efficient by building a feed-forward editor network that only requires approximately one second per edit. Our experiments show that Shap-Editor generalises well to both in-distribution and out-of-distribution 3D assets with different prompts, exhibiting comparable performance with methods that carry out test-time optimisation for each edited instance.
Abstract（参考訳）: shap-editorと呼ばれる新しいフィードフォワード3d編集フレームワークを提案する。従来の3Dオブジェクトの編集は、市販の2D画像編集ネットワークを活用して、個々のオブジェクトの編集に集中していた。これは蒸留と呼ばれるプロセスによって実現され、2Dネットワークから3D資産に知識を伝達する。蒸留は、十分な編集結果を得るために1資産につき少なくとも10分必要であり、あまり実用的ではない。対照的に、3d編集はフィードフォワードネットワークによって直接実施可能か、テスト時間最適化を回避できるかを問う。特に,まず適切な潜在空間に3dオブジェクトをエンコードすることで編集を大幅に単純化できると仮定する。この仮説をShap-Eの潜在空間上に構築することで検証する。編集1秒あたり1秒程度しか必要としないフィードフォワードエディタネットワークを構築することで,この空間での直接3D編集が可能かつ効率的であることを示す。実験の結果,Shap-Editorは,各編集インスタンスに対してテスト時間最適化を行う手法を用いて,異なるプロンプトで,分布内および分布外の両方の3Dアセットを一般化することがわかった。

関連論文リスト

Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [36.08715662927022]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文参考訳（メタデータ） (2025-06-27T17:59:01Z)
Pro3D-Editor : A Progressive-Views Perspective for Consistent and Precise 3D Editing [25.237699330731395]
テキスト誘導型3D編集は意味のある局所的な3D領域を正確に編集することを目的としている。既存の方法は通常、2Dビューを無差別に編集し、3D空間に投影する。理想的な一貫した3D編集は、テキストプログレッシブ・ビューのパラダイムによって実現できると我々は主張する。
論文参考訳（メタデータ） (2025-05-31T11:11:55Z)
DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。既存の方法は直感的で局所的な編集に苦労する。 DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文参考訳（メタデータ） (2024-12-18T07:02:01Z)
PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文参考訳（メタデータ） (2024-12-09T15:44:47Z)
Manipulating Vehicle 3D Shapes through Latent Space Editing [0.0]
本稿では,車載3Dモデルに対する連続的,高精度,属性特異的な修正を可能にする,事前学習型回帰器を用いたフレームワークを提案する。提案手法は,車両3Dオブジェクトの固有性を保持するだけでなく,多属性編集もサポートしており,モデルの構造的整合性を損なうことなく,広範囲のカスタマイズが可能となる。
論文参考訳（メタデータ） (2024-10-31T13:41:16Z)
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images [72.70883914827687]
Tailor3Dは、編集可能なデュアルサイドイメージからカスタマイズされた3Dアセットを作成する新しいパイプラインである。 3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
論文参考訳（メタデータ） (2024-07-08T17:59:55Z)
DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文参考訳（メタデータ） (2024-05-09T14:34:05Z)
DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文参考訳（メタデータ） (2024-04-29T17:59:30Z)
Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文参考訳（メタデータ） (2024-02-21T18:36:26Z)
Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文参考訳（メタデータ） (2023-12-15T09:01:54Z)
Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview Correspondence-Enhanced Diffusion Models [83.97844535389073]
3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
論文参考訳（メタデータ） (2023-12-13T23:27:17Z)
SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文参考訳（メタデータ） (2023-03-23T13:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。