論文の概要: EditCast3D: Single-Frame-Guided 3D Editing with Video Propagation and View Selection
- arxiv url: http://arxiv.org/abs/2510.13652v1
- Date: Sat, 11 Oct 2025 22:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.728496
- Title: EditCast3D: Single-Frame-Guided 3D Editing with Video Propagation and View Selection
- Title(参考訳): EditCast3D:ビデオプロパゲーションとビュー選択によるシングルフレームガイド3D編集
- Authors: Huaizhi Qu, Ruichen Zhang, Shuqing Luo, Luchao Qi, Zhihao Zhang, Xiaoming Liu, Roni Sengupta, Tianlong Chen,
- Abstract要約: EditCast3Dは、ビデオ生成基盤モデルを使用して、再構築前にデータセット全体にわたって単一のファーストフレームから編集を伝搬するパイプラインである。
一般的に使用されている3D編集データセット上でEditCast3Dを評価し,最先端の3D編集ベースラインと比較した。
これらの結果は、基礎モデルを3D編集パイプラインに統合するためのスケーラブルで汎用的なパラダイムとしてEditCast3Dを確立している。
- 参考スコア(独自算出の注目度): 41.62398264236209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in foundation models have driven remarkable progress in image editing, yet their extension to 3D editing remains underexplored. A natural approach is to replace the image editing modules in existing workflows with foundation models. However, their heavy computational demands and the restrictions and costs of closed-source APIs make plugging these models into existing iterative editing strategies impractical. To address this limitation, we propose EditCast3D, a pipeline that employs video generation foundation models to propagate edits from a single first frame across the entire dataset prior to reconstruction. While editing propagation enables dataset-level editing via video models, its consistency remains suboptimal for 3D reconstruction, where multi-view alignment is essential. To overcome this, EditCast3D introduces a view selection strategy that explicitly identifies consistent and reconstruction-friendly views and adopts feedforward reconstruction without requiring costly refinement. In combination, the pipeline both minimizes reliance on expensive image editing and mitigates prompt ambiguities that arise when applying foundation models independently across images. We evaluate EditCast3D on commonly used 3D editing datasets and compare it against state-of-the-art 3D editing baselines, demonstrating superior editing quality and high efficiency. These results establish EditCast3D as a scalable and general paradigm for integrating foundation models into 3D editing pipelines. The code is available at https://github.com/UNITES-Lab/EditCast3D
- Abstract(参考訳): 基礎モデルの最近の進歩は、画像編集の顕著な進歩をもたらしたが、3D編集への拡張はいまだに未発見のままである。
自然なアプローチは、既存のワークフローのイメージ編集モジュールを基礎モデルに置き換えることである。
しかし、その大量の計算要求とクローズドソースAPIの制限とコストにより、これらのモデルを既存の反復的な編集戦略にプラグインするのは現実的ではない。
この制限に対処するために,ビデオ生成基盤モデルを用いたパイプラインであるEditCast3Dを提案する。
編集処理は、ビデオモデルによるデータセットレベルの編集を可能にするが、その一貫性は、マルチビューアライメントが不可欠である3D再構成に最適ではない。
これを解決するためにEditCast3Dでは、一貫性とリビルドフレンドリーなビューを明確に識別するビュー選択戦略を導入し、コストのかかる改善を必要とせずにフィードフォワード再構築を採用する。
このパイプラインはどちらも、高価な画像編集への依存を最小限に抑え、画像間で基礎モデルを独立して適用する際に生じる曖昧さを緩和する。
一般的に使用されている3D編集データセット上でEditCast3Dを評価し、最先端の3D編集ベースラインと比較し、優れた編集品質と高い効率を示す。
これらの結果は、基礎モデルを3D編集パイプラインに統合するためのスケーラブルで汎用的なパラダイムとしてEditCast3Dを確立している。
コードはhttps://github.com/UNITES-Lab/EditCast3Dで入手できる。
関連論文リスト
- Fast Multi-view Consistent 3D Editing with Video Priors [19.790628738739354]
生成ビデオ優先型3D編集(ViP3DE)を提案する。
私たちの重要な洞察は、ビデオ生成モデルを1つの編集されたビューに条件付けして、他の一貫した編集されたビューを生成して、直接3D更新することです。
提案したViP3DEは,1回のフォワードパスでも高品質な3D編集結果が得られる。
論文 参考訳(メタデータ) (2025-11-28T13:31:10Z) - Towards Scalable and Consistent 3D Editing [32.16698854719098]
3D編集は没入型コンテンツ制作、デジタルエンターテイメント、AR/VRに広く応用されている。
2D編集とは異なり、クロスビューの一貫性、構造的忠実さ、きめ細かい制御性を必要とするため、依然として困難である。
我々はこれまでで最大の3D編集ベンチマークである3DEditVerseを紹介した。
モデル側では、3次元構造保存条件変換器である3DEditFormerを提案する。
論文 参考訳(メタデータ) (2025-10-03T13:34:55Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [48.72918598961146]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。
我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文 参考訳(メタデータ) (2025-06-27T17:59:01Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。