論文の概要: VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
- arxiv url: http://arxiv.org/abs/2508.19247v1
- Date: Tue, 26 Aug 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.948662
- Title: VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
- Title(参考訳): VoxHammer:ネイティブ3D空間におけるトレーニング不要の精度とコヒーレントな3D編集
- Authors: Lin Li, Zehuan Huang, Haoran Feng, Gengxiong Zhuang, Rui Chen, Chunchao Guo, Lu Sheng,
- Abstract要約: 特定領域の3D局所編集は,ゲーム産業とロボットのインタラクションにとって重要である。
最近の方法は一般的にレンダリングされたマルチビュー画像を編集し、3Dモデルを再構成する。
本稿では,3次元ラテント空間における高精度かつコヒーレントな編集を行う新しいトレーニングフリーアプローチであるVoxHammerを提案する。
- 参考スコア(独自算出の注目度): 21.430767811940356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D local editing of specified regions is crucial for game industry and robot interaction. Recent methods typically edit rendered multi-view images and then reconstruct 3D models, but they face challenges in precisely preserving unedited regions and overall coherence. Inspired by structured 3D generative models, we propose VoxHammer, a novel training-free approach that performs precise and coherent editing in 3D latent space. Given a 3D model, VoxHammer first predicts its inversion trajectory and obtains its inverted latents and key-value tokens at each timestep. Subsequently, in the denoising and editing phase, we replace the denoising features of preserved regions with the corresponding inverted latents and cached key-value tokens. By retaining these contextual features, this approach ensures consistent reconstruction of preserved areas and coherent integration of edited parts. To evaluate the consistency of preserved regions, we constructed Edit3D-Bench, a human-annotated dataset comprising hundreds of samples, each with carefully labeled 3D editing regions. Experiments demonstrate that VoxHammer significantly outperforms existing methods in terms of both 3D consistency of preserved regions and overall quality. Our method holds promise for synthesizing high-quality edited paired data, thereby laying the data foundation for in-context 3D generation. See our project page at https://huanngzh.github.io/VoxHammer-Page/.
- Abstract(参考訳): 特定領域の3D局所編集は,ゲーム産業とロボットのインタラクションにとって重要である。
最近の手法では、レンダリングされたマルチビュー画像を編集し、3Dモデルを再構成するが、未編集の領域を正確に保存し、全体的なコヒーレンスを正確に維持することは困難である。
構造化された3次元生成モデルから着想を得たVoxHammerを提案する。
3Dモデルが与えられたとき、VoxHammerはまずその反転軌道を予測し、各タイミングで逆の潜在値とキー値のトークンを取得する。
その後、復号化・編集フェーズにおいて、保存領域の復号化特徴を対応する逆子とキャッシュされたキー値トークンに置き換える。
これらのコンテキスト的特徴を維持することにより、保存された領域の一貫性のある再構築と、編集された部分の一貫性のある統合が保証される。
保存領域の整合性を評価するため,数百のサンプルからなる人手による注釈付きデータセットであるEdit3D-Benchを構築し,慎重に3D編集領域をラベル付けした。
実験により、VoxHammerは保存領域の3次元一貫性と全体的な品質の両方において、既存の手法よりも大幅に優れていることが示された。
提案手法は,高品質なペア化データを合成し,テキスト内3D生成のためのデータ基盤を構築することを約束する。
プロジェクトページはhttps://huanngzh.github.io/VoxHammer-Page/にある。
関連論文リスト
- Robust 3D-Masked Part-level Editing in 3D Gaussian Splatting with Regularized Score Distillation Sampling [13.107571213220123]
RoMaPは、精密で劇的な部分レベルの修正を可能にする新しい3Dガウス編集フレームワークである。
3D-Geometry Label Aware Prediction を用いて,ロバストな3Dマスク生成モジュールを提案する。
また、標準のSDS損失と追加の正規化器を組み合わせた正規化SDS損失を提案する。
論文 参考訳(メタデータ) (2025-07-15T07:54:11Z) - Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models [65.90387371072413]
本稿では,3次元再構成と新規ビュー合成を向上する新しいパイプラインであるDifix3D+を紹介する。
このアプローチのコアとなるのは、レンダリングされた新規ビューにおけるアーティファクトの強化と削除のためにトレーニングされた、単一ステップのイメージ拡散モデルであるDifixです。
論文 参考訳(メタデータ) (2025-03-03T17:58:33Z) - GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - LatentEditor: Text Driven Local Editing of 3D Scenes [8.966537479017951]
テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
論文 参考訳(メタデータ) (2023-12-14T19:38:06Z) - Learning Naturally Aggregated Appearance for Efficient 3D Editing [90.57414218888536]
カラーフィールドは、標準画像(canonical image)とも呼ばれる、明示的な2次元の外観アグリゲーションとして学習する。
テクスチャクエリのために3Dポイントを2Dピクセルにマッピングする投影場を標準画像に補完する。
提案手法は,既存のNeRFベースの編集手法に比べて,編集1回あたり20倍高速であることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:31Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。