論文の概要: TASE: Truncation-Aware Semantic Embeddings for 3D Scene Understanding and Editing
- arxiv url: http://arxiv.org/abs/2606.03314v1
- Date: Tue, 02 Jun 2026 08:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.729809
- Title: TASE: Truncation-Aware Semantic Embeddings for 3D Scene Understanding and Editing
- Title(参考訳): TASE:3Dシーン理解と編集のためのトランザクショナルなセマンティックな埋め込み
- Authors: Tim-Felix Faasch, Jochen Kall, Lucas Nunes, Jens Behley, Cyrill Stachniss,
- Abstract要約: 高忠実なセマンティックな3Dシーン表現は、ロボット工学、自律運転、シミュレーションを含む多くのアプリケーションに不可欠である。
現在のアプローチでは、コントロール可能な編集を限定的にサポートしている。
本稿では,事前学習した2Dセマンティックな特徴をトランケーション対応の埋め込み空間に投影する手法であるTASEを紹介する。
- 参考スコア(独自算出の注目度): 25.304236821424198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-fidelity semantic 3D scene representations are crucial for numerous applications, including robotics, autonomous driving, and simulation. Beyond this, the ability to edit such representations enables developers to adapt these applications more easily to specific target scenarios. Current approaches provide limited support for controllable editing. We introduce TASE, a method that projects pretrained 2D semantic features into a truncation-aware embedding space to enable flexible 3D scene editing. Our method explicitly optimizes a feature space in which progressively reducing feature channels yields increasingly abstract semantic representations, while retaining more channels preserves fine-grained detail. Additionally, we improve multi-view consistency of the features using a scale- and translation-equivariance loss. The resulting truncation-aware embedding space enables text-driven edits to 3D scenes, providing explicit control over how strongly edits adhere to the original scene content and allowing more substantial modifications than prior methods. Moreover, we propose a finetuning stage for the editing diffusion model to mitigate artifacts caused by geometric changes. Experimental results demonstrate competitive performance in 3D scene editing, substantially outperforming prior methods on edits involving large geometric modifications.
- Abstract(参考訳): 高忠実なセマンティックな3Dシーン表現は、ロボット工学、自律運転、シミュレーションを含む多くのアプリケーションに不可欠である。
さらに、このような表現を編集することで、開発者は特定のターゲットシナリオにこれらのアプリケーションをより簡単に適応できる。
現在のアプローチでは、コントロール可能な編集を限定的にサポートしている。
本稿では,事前学習した2Dセマンティック機能をトランケーション対応の埋め込み空間に投影し,フレキシブルな3Dシーン編集を実現する方法であるTASEを紹介する。
提案手法は,特徴チャネルを漸進的に減らした特徴空間を明示的に最適化し,より細かな細部を保存しつつ,より抽象的な意味表現を生成する。
さらに、スケール・アンド・トランスレーショナル・等価分散損失を用いて、特徴のマルチビュー整合性を改善する。
結果として、トランケーション対応の埋め込みスペースにより、テキスト駆動による3Dシーンへの編集が可能となり、編集が元のシーンコンテンツにどのように固執するかを明確に制御し、以前の方法よりも実質的な修正を可能にする。
また,幾何学的変化によるアーティファクトを緩和するために,編集拡散モデルのための微調整ステージを提案する。
実験の結果,3次元シーン編集における競争性能は,大規模な幾何学的修正を含む編集方法よりもかなり優れていた。
関連論文リスト
- Feedforward 3D Editing Learns from Semantic-Part Transformation [13.61340944347895]
フィードフォワード3D編集における中心的な課題は、高品質なペア管理の欠如にある。
スケーラブルなフィードフォワード3D編集はセマンティック部分変換から学習されるべきである。
PartFlowはフィードフォワード3D編集ネットワークで、ソース認識の潜伏制御を事前訓練された3D生成先行に注入する。
論文 参考訳(メタデータ) (2026-05-26T17:51:59Z) - Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。
画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。
マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文 参考訳(メタデータ) (2025-11-17T18:57:39Z) - Mastering Regional 3DGS: Locating, Initializing, and Editing with Diverse 2D Priors [67.22744959435708]
3Dセマンティックパーシングは2Dに比べて性能が劣ることが多く、3D空間内でのターゲット操作がより困難になり、編集の忠実さが制限される。
本稿では,2次元拡散編集を利用して各ビューの修正領域を正確に同定し,次に3次元ローカライゼーションのための逆レンダリングを行う。
実験により,提案手法は最新技術の性能を実現し,最大4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-07T19:15:43Z) - Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文 参考訳(メタデータ) (2025-01-30T18:51:54Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。