論文の概要: Native 3D Editing with Full Attention
- arxiv url: http://arxiv.org/abs/2511.17501v1
- Date: Fri, 21 Nov 2025 18:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.176847
- Title: Native 3D Editing with Full Attention
- Title(参考訳): フルアテンションによるネイティブ3D編集
- Authors: Weiwei Cai, Shuangkang Fang, Weicai Ye, Xin Dong, Yunhan Yang, Xuanyang Zhang, Wei Cheng, Yanpei Cao, Gang Yu, Tao Chen,
- Abstract要約: 本研究では,1つのフィードフォワードパスで直接3D表現を操作できる新しい3D編集フレームワークを提案する。
このデータセットは慎重にキュレーションされ、編集されたオブジェクトが命令の変更に忠実に従うことを保証する。
その結果,トークンの連結はパラメータ効率が良く,優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 47.908091876301796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-guided 3D editing is a rapidly emerging field with the potential to broaden access to 3D content creation. However, existing methods face critical limitations: optimization-based approaches are prohibitively slow, while feed-forward approaches relying on multi-view 2D editing often suffer from inconsistent geometry and degraded visual quality. To address these issues, we propose a novel native 3D editing framework that directly manipulates 3D representations in a single, efficient feed-forward pass. Specifically, we create a large-scale, multi-modal dataset for instruction-guided 3D editing, covering diverse addition, deletion, and modification tasks. This dataset is meticulously curated to ensure that edited objects faithfully adhere to the instructional changes while preserving the consistency of unedited regions with the source object. Building upon this dataset, we explore two distinct conditioning strategies for our model: a conventional cross-attention mechanism and a novel 3D token concatenation approach. Our results demonstrate that token concatenation is more parameter-efficient and achieves superior performance. Extensive evaluations show that our method outperforms existing 2D-lifting approaches, setting a new benchmark in generation quality, 3D consistency, and instruction fidelity.
- Abstract(参考訳): インストラクション誘導型3D編集は、3Dコンテンツ作成へのアクセスを拡大する可能性を持つ急速に発展する分野である。
しかし、既存の手法には限界があり、最適化ベースのアプローチは明らかに遅いが、フィードフォワードアプローチは多視点2D編集に依存しているため、不整合な幾何学と劣化した視覚的品質に悩まされることが多い。
これらの問題に対処するため,我々は,単一かつ効率的なフィードフォワードパスで直接3D表現を操作可能な,新しいネイティブな3D編集フレームワークを提案する。
具体的には、命令誘導3D編集のための大規模マルチモーダルデータセットを作成し、多様な追加、削除、修正タスクをカバーする。
このデータセットは、編集済みのオブジェクトが、ソースオブジェクトとの未編集領域の一貫性を維持しながら、命令の変更に忠実に準拠することを保証するために、慎重にキュレートされている。
このデータセットに基づいて、従来のクロスアテンション機構と新しい3Dトークン結合アプローチの2つの異なる条件付け戦略を探索する。
その結果,トークンの連結はパラメータ効率が良く,優れた性能が得られることがわかった。
大規模評価の結果,提案手法は既存の2次元リフト法よりも優れており,生成品質,3次元整合性,命令忠実度に新たなベンチマークが設定されている。
関連論文リスト
- Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing [106.07976338405793]
3次元編集における2次元拡散モデルの先行的活用は、有望なパラダイムとして現れている。
我々は3次元基礎モデルであるVGGTから得られた新たな報酬を用いて、強化学習によって駆動されるシングルパスフレームワークであるtextbfRL3DEditを提案する。
実験により、RL3DEditは安定したマルチビューの一貫性を実現し、高い効率で品質を編集する最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2026-03-03T16:31:10Z) - Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow [29.8200628539749]
TRELLIS生成バックボーンに基づく,効果的かつ完全なフィードフォワード3D編集フレームワークを提案する。
本フレームワークは,3次元表現に自由な2次元編集を適用すること,圧縮された3次元特徴の外観忠実性のボトルネックを克服すること,の2つの主要な課題に対処する。
論文 参考訳(メタデータ) (2026-02-25T02:15:14Z) - Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。
画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。
マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文 参考訳(メタデータ) (2025-11-17T18:57:39Z) - NANO3D: A Training-Free Approach for Efficient 3D Editing Without Masks [29.825760228576744]
Nano3Dは、マスクなしで正確でコヒーレントな3Dオブジェクト編集のためのトレーニング不要のフレームワークである。
我々は,10万以上の高品質な3D編集ペアを含む,最初の大規模3D編集データセットであるNano3D-Edit-100kを構築した。
論文 参考訳(メタデータ) (2025-10-16T17:51:50Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting [86.50200613220674]
3Dベースのインタラクティブ編集における重要な課題は、与えられたメモリ制約の下で様々な修正と高品質なビュー合成のバランスをとる効率的な表現がないことである。
SplatMeshは,3次元ガウススプラッティングと事前計算メッシュを統合した,対話型3Dセグメンテーション・編集アルゴリズムである。
単純化されたメッシュのセグメンテーションと編集により、ガウススプレートの編集も効果的に行えます。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。