論文の概要: Native 3D Editing with Full Attention
- arxiv url: http://arxiv.org/abs/2511.17501v1
- Date: Fri, 21 Nov 2025 18:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.176847
- Title: Native 3D Editing with Full Attention
- Title(参考訳): フルアテンションによるネイティブ3D編集
- Authors: Weiwei Cai, Shuangkang Fang, Weicai Ye, Xin Dong, Yunhan Yang, Xuanyang Zhang, Wei Cheng, Yanpei Cao, Gang Yu, Tao Chen,
- Abstract要約: 本研究では,1つのフィードフォワードパスで直接3D表現を操作できる新しい3D編集フレームワークを提案する。
このデータセットは慎重にキュレーションされ、編集されたオブジェクトが命令の変更に忠実に従うことを保証する。
その結果,トークンの連結はパラメータ効率が良く,優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 47.908091876301796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-guided 3D editing is a rapidly emerging field with the potential to broaden access to 3D content creation. However, existing methods face critical limitations: optimization-based approaches are prohibitively slow, while feed-forward approaches relying on multi-view 2D editing often suffer from inconsistent geometry and degraded visual quality. To address these issues, we propose a novel native 3D editing framework that directly manipulates 3D representations in a single, efficient feed-forward pass. Specifically, we create a large-scale, multi-modal dataset for instruction-guided 3D editing, covering diverse addition, deletion, and modification tasks. This dataset is meticulously curated to ensure that edited objects faithfully adhere to the instructional changes while preserving the consistency of unedited regions with the source object. Building upon this dataset, we explore two distinct conditioning strategies for our model: a conventional cross-attention mechanism and a novel 3D token concatenation approach. Our results demonstrate that token concatenation is more parameter-efficient and achieves superior performance. Extensive evaluations show that our method outperforms existing 2D-lifting approaches, setting a new benchmark in generation quality, 3D consistency, and instruction fidelity.
- Abstract(参考訳): インストラクション誘導型3D編集は、3Dコンテンツ作成へのアクセスを拡大する可能性を持つ急速に発展する分野である。
しかし、既存の手法には限界があり、最適化ベースのアプローチは明らかに遅いが、フィードフォワードアプローチは多視点2D編集に依存しているため、不整合な幾何学と劣化した視覚的品質に悩まされることが多い。
これらの問題に対処するため,我々は,単一かつ効率的なフィードフォワードパスで直接3D表現を操作可能な,新しいネイティブな3D編集フレームワークを提案する。
具体的には、命令誘導3D編集のための大規模マルチモーダルデータセットを作成し、多様な追加、削除、修正タスクをカバーする。
このデータセットは、編集済みのオブジェクトが、ソースオブジェクトとの未編集領域の一貫性を維持しながら、命令の変更に忠実に準拠することを保証するために、慎重にキュレートされている。
このデータセットに基づいて、従来のクロスアテンション機構と新しい3Dトークン結合アプローチの2つの異なる条件付け戦略を探索する。
その結果,トークンの連結はパラメータ効率が良く,優れた性能が得られることがわかった。
大規模評価の結果,提案手法は既存の2次元リフト法よりも優れており,生成品質,3次元整合性,命令忠実度に新たなベンチマークが設定されている。
関連論文リスト
- NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks [29.825760228576744]
Nano3Dは、マスクなしで正確でコヒーレントな3Dオブジェクト編集のためのトレーニング不要のフレームワークである。
我々は,10万以上の高品質な3D編集ペアを含む,最初の大規模3D編集データセットであるNano3D-Edit-100kを構築した。
論文 参考訳(メタデータ) (2025-10-16T17:51:50Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting [86.50200613220674]
3Dベースのインタラクティブ編集における重要な課題は、与えられたメモリ制約の下で様々な修正と高品質なビュー合成のバランスをとる効率的な表現がないことである。
SplatMeshは,3次元ガウススプラッティングと事前計算メッシュを統合した,対話型3Dセグメンテーション・編集アルゴリズムである。
単純化されたメッシュのセグメンテーションと編集により、ガウススプレートの編集も効果的に行えます。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。