論文の概要: Beyond Voxel 3D Editing: Learning from 3D Masks and Self-Constructed Data
- arxiv url: http://arxiv.org/abs/2604.13688v1
- Date: Wed, 15 Apr 2026 10:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.481319
- Title: Beyond Voxel 3D Editing: Learning from 3D Masks and Self-Constructed Data
- Title(参考訳): Voxel 3D編集を超えて - 3Dマスクと自己構築データから学ぶ
- Authors: Yizhao Xu, Hongyuan Zhu, Caiyun Liu, Tianfu Wang, Keyu Chen, Sicheng Xu, Jiaolong Yang, Nicholas Jing Yuan, Qi Zhang,
- Abstract要約: 3D編集では、プロンプトに従って局所的な変更を実行することでセマンティック一貫性を維持する必要がある。
本研究では,3D編集に適した大規模データセットを自己構築したBeyond Voxel 3D Editing (BVE) フレームワークを提案する。
BVEは、原入力の視覚的特性を忠実に保持しつつ、高品質でテキスト整列した3Dアセットを生成する上で、優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 40.44238807341562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D editing refers to the ability to apply local or global modifications to 3D assets. Effective 3D editing requires maintaining semantic consistency by performing localized changes according to prompts, while also preserving local invariance so that unchanged regions remain consistent with the original. However, existing approaches have significant limitations: multi-view editing methods incur losses when projecting back to 3D, while voxel-based editing is constrained in both the regions that can be modified and the scale of modifications. Moreover, the lack of sufficiently large editing datasets for training and evaluation remains a challenge. To address these challenges, we propose a Beyond Voxel 3D Editing (BVE) framework with a self-constructed large-scale dataset specifically tailored for 3D editing. Building upon this dataset, our model enhances a foundational image-to-3D generative architecture with lightweight, trainable modules, enabling efficient injection of textual semantics without the need for expensive full-model retraining. Furthermore, we introduce an annotation-free 3D masking strategy to preserve local invariance, maintaining the integrity of unchanged regions during editing. Extensive experiments demonstrate that BVE achieves superior performance in generating high-quality, text-aligned 3D assets, while faithfully retaining the visual characteristics of the original input.
- Abstract(参考訳): 3D編集は、ローカルまたはグローバルな修正を3Dアセットに適用する能力を指す。
効果的な3D編集では、プロンプトに従って局所的な変更を行うことで意味的な一貫性を維持するとともに、変化しない領域が元の領域と整合性を保つように局所的な不変性を保存する必要がある。
しかし、既存のアプローチには大きな制限がある: マルチビュー編集手法は3Dに投影する際に損失を発生させるのに対して、ボクセルベースの編集は修正可能な領域と修正の規模の両方で制約される。
さらに、トレーニングと評価に十分な量の編集データセットがないことは、依然として課題である。
これらの課題に対処するため,我々は,特に3D編集に適した大規模データセットを自己構築したBeyond Voxel 3D Editing (BVE) フレームワークを提案する。
このデータセットをベースとした本モデルでは,軽量でトレーニング可能なモジュールによる3次元画像生成アーキテクチャを基本とし,高コストのフルモデル再トレーニングを必要とせず,テキストセマンティクスの効率的な注入を可能にする。
さらに,アノテーションのない3Dマスキング手法を導入し,編集中の変化領域の整合性を維持し,局所的な不変性を維持する。
大規模な実験により、BVEは、原入力の視覚的特性を忠実に保ちながら、高品質でテキスト整列した3Dアセットを生成する上で、優れた性能を発揮することが示された。
関連論文リスト
- CEI-3D: Collaborative Explicit-Implicit 3D Reconstruction for Realistic and Fine-Grained Object Editing [51.73433734209541]
既存の3D編集手法は、再構成ネットワークの深い統合性のために、非現実的で未精細な結果をもたらすことが多い。
本稿では,現実的できめ細かな編集を容易にするための,編集指向の再構築パイプラインであるCEI-3Dを紹介する。
提案手法は,最新技術(SOTA)手法よりも,よりリアルできめ細かな編集結果を実現すると同時に,編集時間を短縮する。
論文 参考訳(メタデータ) (2026-03-12T11:15:11Z) - Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing [106.07976338405793]
3次元編集における2次元拡散モデルの先行的活用は、有望なパラダイムとして現れている。
我々は3次元基礎モデルであるVGGTから得られた新たな報酬を用いて、強化学習によって駆動されるシングルパスフレームワークであるtextbfRL3DEditを提案する。
実験により、RL3DEditは安定したマルチビューの一貫性を実現し、高い効率で品質を編集する最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2026-03-03T16:31:10Z) - Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow [29.8200628539749]
TRELLIS生成バックボーンに基づく,効果的かつ完全なフィードフォワード3D編集フレームワークを提案する。
本フレームワークは,3次元表現に自由な2次元編集を適用すること,圧縮された3次元特徴の外観忠実性のボトルネックを克服すること,の2つの主要な課題に対処する。
論文 参考訳(メタデータ) (2026-02-25T02:15:14Z) - Vinedresser3D: Agentic Text-guided 3D Editing [26.81659566314386]
Vinedresser3Dは高品質なテキスト誘導3D編集のためのエージェントフレームワークである。
ネイティブな3D生成モデルの潜在空間で直接動作する。
多様な3D編集の実験では、Vinedresser3Dは自動メトリクスと人間の嗜好の両方において、以前のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-02-23T06:30:36Z) - Native 3D Editing with Full Attention [47.908091876301796]
本研究では,1つのフィードフォワードパスで直接3D表現を操作できる新しい3D編集フレームワークを提案する。
このデータセットは慎重にキュレーションされ、編集されたオブジェクトが命令の変更に忠実に従うことを保証する。
その結果,トークンの連結はパラメータ効率が良く,優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-21T18:59:26Z) - Error-Driven Scene Editing for 3D Grounding in Large Language Models [71.41120775319088]
近年の3D-LLMの進歩にもかかわらず、3D環境における視覚的および空間的要素に正確に接地する言語に限られている。
この制限は、3Dリソースの不足による空間的理解よりも、言語推論に焦点を当てたトレーニングデータに起因している。
本稿では,これらのバイアスを緩和する正確な視覚的カウンターファクトを生成するための重要なメカニズムとして,3Dシーン編集を提案する。
論文 参考訳(メタデータ) (2025-11-18T03:13:29Z) - NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks [29.825760228576744]
Nano3Dは、マスクなしで正確でコヒーレントな3Dオブジェクト編集のためのトレーニング不要のフレームワークである。
我々は,10万以上の高品質な3D編集ペアを含む,最初の大規模3D編集データセットであるNano3D-Edit-100kを構築した。
論文 参考訳(メタデータ) (2025-10-16T17:51:50Z) - Mastering Regional 3DGS: Locating, Initializing, and Editing with Diverse 2D Priors [67.22744959435708]
3Dセマンティックパーシングは2Dに比べて性能が劣ることが多く、3D空間内でのターゲット操作がより困難になり、編集の忠実さが制限される。
本稿では,2次元拡散編集を利用して各ビューの修正領域を正確に同定し,次に3次元ローカライゼーションのための逆レンダリングを行う。
実験により,提案手法は最新技術の性能を実現し,最大4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-07T19:15:43Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。