論文の概要: Edit3r: Instant 3D Scene Editing from Sparse Unposed Images
- arxiv url: http://arxiv.org/abs/2512.25071v1
- Date: Wed, 31 Dec 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.753747
- Title: Edit3r: Instant 3D Scene Editing from Sparse Unposed Images
- Title(参考訳): Edit3r:スパース未公開画像からのインスタント3Dシーン編集
- Authors: Jiageng Liu, Weijie Lyu, Xueting Li, Yejie Guo, Ming-Hsuan Yang,
- Abstract要約: 編集3rは、3Dシーンを1パスで再構成・編集するフレームワークである。
Edit3rは,最近のベースラインと比較して,セマンティックアライメントと3D整合性の向上を実現している。
- 参考スコア(独自算出の注目度): 40.421700685587346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Edit3r, a feed-forward framework that reconstructs and edits 3D scenes in a single pass from unposed, view-inconsistent, instruction-edited images. Unlike prior methods requiring per-scene optimization, Edit3r directly predicts instruction-aligned 3D edits, enabling fast and photorealistic rendering without optimization or pose estimation. A key challenge in training such a model lies in the absence of multi-view consistent edited images for supervision. We address this with (i) a SAM2-based recoloring strategy that generates reliable, cross-view-consistent supervision, and (ii) an asymmetric input strategy that pairs a recolored reference view with raw auxiliary views, encouraging the network to fuse and align disparate observations. At inference, our model effectively handles images edited by 2D methods such as InstructPix2Pix, despite not being exposed to such edits during training. For large-scale quantitative evaluation, we introduce DL3DV-Edit-Bench, a benchmark built on the DL3DV test split, featuring 20 diverse scenes, 4 edit types and 100 edits in total. Comprehensive quantitative and qualitative results show that Edit3r achieves superior semantic alignment and enhanced 3D consistency compared to recent baselines, while operating at significantly higher inference speed, making it promising for real-time 3D editing applications.
- Abstract(参考訳): 本稿では,フィードフォワード・フレームワークであるEdit3rを提案する。
シーンごとの最適化を必要とする従来の方法とは異なり、Edit3rは命令に沿った3D編集を直接予測し、最適化やポーズ推定なしに高速でフォトリアリスティックなレンダリングを可能にする。
このようなモデルをトレーニングする上で重要な課題は、監督のために複数のビュー一貫した編集されたイメージがないことである。
私たちはこの問題に対処します
一 確実かつ横断的な監督を生ずるSAM2ベースの再色戦略及び
二 異色参照ビューを生の補助ビューと組み合わせた非対称な入力戦略で、異なる観測を融合・整合させることを奨励する。
InstructPix2Pixのような2D手法で編集した画像を、トレーニング中にそのような編集に晒されない状態で効果的に処理する。
大規模な定量的評価のために,DL3DVテスト分割に基づくベンチマークであるDL3DV-Edit-Benchを紹介した。
総合的な定量的および定性的な結果から、Edit3rは最近のベースラインよりも優れたセマンティックアライメントと3D整合性を実現し、推論速度は大幅に向上し、リアルタイムな3D編集アプリケーションに期待できることを示す。
関連論文リスト
- C3Editor: Achieving Controllable Consistency in 2D Model for 3D Editing [37.439731931558036]
C3Editorは、コントロール可能で一貫性のある2Dリフトベースの3D編集フレームワークである。
本手法は,ビュー一貫性を有する2次元編集モデルを選択的に確立し,優れた3次元編集結果を得る。
提案手法は既存の2Dリフト方式よりも,より一貫性があり,制御可能な2Dおよび3D編集結果を提供する。
論文 参考訳(メタデータ) (2025-10-06T07:07:14Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。