論文の概要: Edit3r: Instant 3D Scene Editing from Sparse Unposed Images
- arxiv url: http://arxiv.org/abs/2512.25071v1
- Date: Wed, 31 Dec 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.753747
- Title: Edit3r: Instant 3D Scene Editing from Sparse Unposed Images
- Title(参考訳): Edit3r:スパース未公開画像からのインスタント3Dシーン編集
- Authors: Jiageng Liu, Weijie Lyu, Xueting Li, Yejie Guo, Ming-Hsuan Yang,
- Abstract要約: 編集3rは、3Dシーンを1パスで再構成・編集するフレームワークである。
Edit3rは,最近のベースラインと比較して,セマンティックアライメントと3D整合性の向上を実現している。
- 参考スコア(独自算出の注目度): 40.421700685587346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Edit3r, a feed-forward framework that reconstructs and edits 3D scenes in a single pass from unposed, view-inconsistent, instruction-edited images. Unlike prior methods requiring per-scene optimization, Edit3r directly predicts instruction-aligned 3D edits, enabling fast and photorealistic rendering without optimization or pose estimation. A key challenge in training such a model lies in the absence of multi-view consistent edited images for supervision. We address this with (i) a SAM2-based recoloring strategy that generates reliable, cross-view-consistent supervision, and (ii) an asymmetric input strategy that pairs a recolored reference view with raw auxiliary views, encouraging the network to fuse and align disparate observations. At inference, our model effectively handles images edited by 2D methods such as InstructPix2Pix, despite not being exposed to such edits during training. For large-scale quantitative evaluation, we introduce DL3DV-Edit-Bench, a benchmark built on the DL3DV test split, featuring 20 diverse scenes, 4 edit types and 100 edits in total. Comprehensive quantitative and qualitative results show that Edit3r achieves superior semantic alignment and enhanced 3D consistency compared to recent baselines, while operating at significantly higher inference speed, making it promising for real-time 3D editing applications.
- Abstract(参考訳): 本稿では,フィードフォワード・フレームワークであるEdit3rを提案する。
シーンごとの最適化を必要とする従来の方法とは異なり、Edit3rは命令に沿った3D編集を直接予測し、最適化やポーズ推定なしに高速でフォトリアリスティックなレンダリングを可能にする。
このようなモデルをトレーニングする上で重要な課題は、監督のために複数のビュー一貫した編集されたイメージがないことである。
私たちはこの問題に対処します
一 確実かつ横断的な監督を生ずるSAM2ベースの再色戦略及び
二 異色参照ビューを生の補助ビューと組み合わせた非対称な入力戦略で、異なる観測を融合・整合させることを奨励する。
InstructPix2Pixのような2D手法で編集した画像を、トレーニング中にそのような編集に晒されない状態で効果的に処理する。
大規模な定量的評価のために,DL3DVテスト分割に基づくベンチマークであるDL3DV-Edit-Benchを紹介した。
総合的な定量的および定性的な結果から、Edit3rは最近のベースラインよりも優れたセマンティックアライメントと3D整合性を実現し、推論速度は大幅に向上し、リアルタイムな3D編集アプリケーションに期待できることを示す。
関連論文リスト
- Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing [106.07976338405793]
3次元編集における2次元拡散モデルの先行的活用は、有望なパラダイムとして現れている。
我々は3次元基礎モデルであるVGGTから得られた新たな報酬を用いて、強化学習によって駆動されるシングルパスフレームワークであるtextbfRL3DEditを提案する。
実験により、RL3DEditは安定したマルチビューの一貫性を実現し、高い効率で品質を編集する最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2026-03-03T16:31:10Z) - Fast Multi-view Consistent 3D Editing with Video Priors [19.790628738739354]
生成ビデオ優先型3D編集(ViP3DE)を提案する。
私たちの重要な洞察は、ビデオ生成モデルを1つの編集されたビューに条件付けして、他の一貫した編集されたビューを生成して、直接3D更新することです。
提案したViP3DEは,1回のフォワードパスでも高品質な3D編集結果が得られる。
論文 参考訳(メタデータ) (2025-11-28T13:31:10Z) - Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。
画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。
マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文 参考訳(メタデータ) (2025-11-17T18:57:39Z) - C3Editor: Achieving Controllable Consistency in 2D Model for 3D Editing [37.439731931558036]
C3Editorは、コントロール可能で一貫性のある2Dリフトベースの3D編集フレームワークである。
本手法は,ビュー一貫性を有する2次元編集モデルを選択的に確立し,優れた3次元編集結果を得る。
提案手法は既存の2Dリフト方式よりも,より一貫性があり,制御可能な2Dおよび3D編集結果を提供する。
論文 参考訳(メタデータ) (2025-10-06T07:07:14Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。