Fugu-MT 論文翻訳(概要): Editing 3D Scenes via Text Prompts without Retraining

論文の概要: Editing 3D Scenes via Text Prompts without Retraining

arxiv url: http://arxiv.org/abs/2309.04917v3
Date: Thu, 30 Nov 2023 03:59:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 20:12:03.073441
Title: Editing 3D Scenes via Text Prompts without Retraining
Title（参考訳）: テキストプロンプトによる3Dシーンの編集
Authors: Shuangkang Fang, Yufeng Wang, Yi Yang, Yi-Hsuan Tsai, Wenrui Ding, Shuchang Zhou, Ming-Hsuan Yang
Abstract要約: DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
参考スコア（独自算出の注目度）: 80.57814031701744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Numerous diffusion models have recently been applied to image synthesis and editing. However, editing 3D scenes is still in its early stages. It poses various challenges, such as the requirement to design specific methods for different editing types, retraining new models for various 3D scenes, and the absence of convenient human interaction during editing. To tackle these issues, we introduce a text-driven editing method, termed DN2N, which allows for the direct acquisition of a NeRF model with universal editing capabilities, eliminating the requirement for retraining. Our method employs off-the-shelf text-based editing models of 2D images to modify the 3D scene images, followed by a filtering process to discard poorly edited images that disrupt 3D consistency. We then consider the remaining inconsistency as a problem of removing noise perturbation, which can be solved by generating training data with similar perturbation characteristics for training. We further propose cross-view regularization terms to help the generalized NeRF model mitigate these perturbations. Our text-driven method allows users to edit a 3D scene with their desired description, which is more friendly, intuitive, and practical than prior works. Empirical results show that our method achieves multiple editing types, including but not limited to appearance editing, weather transition, material changing, and style transfer. Most importantly, our method generalizes well with editing abilities shared among a set of model parameters without requiring a customized editing model for some specific scenes, thus inferring novel views with editing effects directly from user input. The project website is available at https://sk-fun.fun/DN2N
Abstract（参考訳）: 近年,画像合成と編集に多くの拡散モデルが適用されている。しかし、3Dシーンの編集はまだ初期段階にある。例えば、異なる編集タイプの特定のメソッドを設計すること、様々な3Dシーンのための新しいモデルをトレーニングすること、編集時に便利なヒューマンインタラクションがないことなどである。そこで本研究では,汎用編集機能を備えたnrfモデルを直接取得し,リトレーニングの必要をなくし,テキスト駆動型編集手法であるdn2nを導入する。本手法では,2次元画像の既製テキストベースの編集モデルを用いて3次元シーン画像の編集を行い,さらに3次元画像の一貫性を損なう未編集画像をフィルタリング処理する。次に,残余の不整合を,同様の摂動特性を持つトレーニングデータを生成して学習を行うことにより解決できる雑音摂動除去問題として考察する。さらに、これらの摂動を緩和する一般化されたNeRFモデルを支援するために、クロスビュー正規化項を提案する。テキスト駆動方式では,従来よりも親しみやすく,直感的で,実用的な3dシーンを編集することができる。実験結果から, 外観編集, 天気変化, 材質変化, スタイル伝達など, 複数種類の編集が可能であることが示唆された。本手法は,特定のシーンにカスタマイズされた編集モデルを必要とせず,複数のモデルパラメータ間で共有される編集能力をうまく一般化し,ユーザ入力から直接編集効果を持つ新規なビューを推定する。プロジェクトのwebサイトはhttps://sk-fun.fun/dn2nで入手できる。

関連論文リスト

Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文参考訳（メタデータ） (2025-11-17T18:57:39Z)
Towards a Training Free Approach for 3D Scene Editing [7.631288333466647]
近年のNeRF編集手法は,2次元拡散モデルの展開と3次元空間への投影による編集操作を利用する。編集位置を特定するには、テキストのプロンプトとともに、強力な位置先を必要とする。メッシュ表現をNeRFの代用として,学習自由な編集方法であるFreeEditを提案する。
論文参考訳（メタデータ） (2024-12-17T10:31:03Z)
CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion [13.744253074367885]
本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
論文参考訳（メタデータ） (2024-12-02T18:38:51Z)
Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。 Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文参考訳（メタデータ） (2024-07-09T13:24:42Z)
ICE-G: Image Conditional Editing of 3D Gaussian Splats [45.112689255145625]
単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。我々の技術はまず編集画像を分割し、選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。
論文参考訳（メタデータ） (2024-06-12T17:59:52Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文参考訳（メタデータ） (2024-03-18T15:22:09Z)
Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文参考訳（メタデータ） (2024-02-21T18:36:26Z)
Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文参考訳（メタデータ） (2023-12-21T08:40:57Z)
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文参考訳（メタデータ） (2023-12-04T06:25:06Z)
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields [14.803266838721864]
Seal-3Dでは、ユーザーは幅広いNeRFに似たバックボーンで、ピクセルレベルの自由な方法でNeRFモデルを編集し、編集効果を即座にプレビューすることができる。様々な編集タイプを展示するために、NeRF編集システムを構築している。
論文参考訳（メタデータ） (2023-07-27T18:08:19Z)
SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文参考訳（メタデータ） (2023-03-23T13:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。