論文の概要: Mono4DEditor: Text-Driven 4D Scene Editing from Monocular Video via Point-Level Localization of Language-Embedded Gaussians
- arxiv url: http://arxiv.org/abs/2510.09438v1
- Date: Fri, 10 Oct 2025 14:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.294927
- Title: Mono4DEditor: Text-Driven 4D Scene Editing from Monocular Video via Point-Level Localization of Language-Embedded Gaussians
- Title(参考訳): Mono4DEditor:言語埋め込みガウスのポイントレベルローカライゼーションによるモノクロビデオからのテキスト駆動4Dシーン編集
- Authors: Jin-Chuan Shi, Chengye Su, Jiajun Wang, Ariel Shamir, Miao Wang,
- Abstract要約: フレキシブルで正確なテキスト駆動4Dシーン編集のためのフレームワークであるMono4DEditorを紹介する。
提案手法は,3次元ガウス関数を量子化したCLIP特徴量で拡張し,言語埋め込み動的表現を生成する。
Mono4DEditorは、さまざまなシーンやオブジェクトタイプにわたる高品質でテキスト駆動の編集を可能にする。
- 参考スコア(独自算出の注目度): 26.932971930852176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing 4D scenes reconstructed from monocular videos based on text prompts is a valuable yet challenging task with broad applications in content creation and virtual environments. The key difficulty lies in achieving semantically precise edits in localized regions of complex, dynamic scenes, while preserving the integrity of unedited content. To address this, we introduce Mono4DEditor, a novel framework for flexible and accurate text-driven 4D scene editing. Our method augments 3D Gaussians with quantized CLIP features to form a language-embedded dynamic representation, enabling efficient semantic querying of arbitrary spatial regions. We further propose a two-stage point-level localization strategy that first selects candidate Gaussians via CLIP similarity and then refines their spatial extent to improve accuracy. Finally, targeted edits are performed on localized regions using a diffusion-based video editing model, with flow and scribble guidance ensuring spatial fidelity and temporal coherence. Extensive experiments demonstrate that Mono4DEditor enables high-quality, text-driven edits across diverse scenes and object types, while preserving the appearance and geometry of unedited areas and surpassing prior approaches in both flexibility and visual fidelity.
- Abstract(参考訳): テキストプロンプトに基づくモノラルビデオから再構成された4Dシーンの編集は、コンテンツ作成や仮想環境における幅広い応用において、価値のある作業である。
重要な困難は、複雑で動的なシーンの局所的な領域で意味論的に正確な編集を行いながら、未編集コンテンツの完全性を維持することである。
これを解決するために,テキスト駆動の4Dシーン編集を柔軟かつ正確に行う新しいフレームワークであるMono4DEditorを紹介した。
提案手法は,CLIPを量子化した3次元ガウスを拡張し,言語埋め込みの動的表現を実現し,任意の空間領域の効率的なセマンティッククエリを実現する。
さらに,CLIP類似性によりまず候補ガウスを選別し,その空間範囲を改良して精度を向上させる2段階の点レベルローカライズ戦略を提案する。
最後に、拡散に基づくビデオ編集モデルを用いて、空間的忠実度と時間的コヒーレンスを確保するためのフローとスクリブルガイダンスを用いて、ローカライズされた領域でターゲット編集を行う。
広範な実験により、Mono4DEditorは、さまざまなシーンやオブジェクトタイプにわたる高品質でテキスト駆動の編集を可能にし、未編集領域の外観と幾何学を保存し、柔軟性と視覚的忠実性の両方において以前のアプローチを超えることが示されている。
関連論文リスト
- InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning [60.799998743918955]
複雑な現実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークを提案する。
InterCoGの重要な洞察は、まずテキスト内でのみオブジェクト位置推論を実行することである。
また,マルチモーダル・グラウンド・ライティング・アライメント・アライメントとマルチモーダル・グラウンド・ライティング・アライメント・アライメントの2つの補助的トレーニング・モジュールを提案する。
論文 参考訳(メタデータ) (2026-03-02T08:13:16Z) - Mastering Regional 3DGS: Locating, Initializing, and Editing with Diverse 2D Priors [67.22744959435708]
3Dセマンティックパーシングは2Dに比べて性能が劣ることが多く、3D空間内でのターゲット操作がより困難になり、編集の忠実さが制限される。
本稿では,2次元拡散編集を利用して各ビューの修正領域を正確に同定し,次に3次元ローカライゼーションのための逆レンダリングを行う。
実験により,提案手法は最新技術の性能を実現し,最大4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-07T19:15:43Z) - PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization [11.170354299559998]
本稿では,ユーザがテキストプロンプトのみを使用して,創造的で正確な編集を行うことのできる,新しい3Dシーン編集フレームワークであるGSEditProを提案する。
レンダリング中に各ガウス語に意味ラベルを追加するために、注意に基づくプログレッシブなローカライゼーションモジュールを導入する。
これにより、T2Iモデルのクロスアテンション層から派生した編集プロンプトとの関連性に基づいて、ガウスアンを分類することで、編集領域の正確なローカライズが可能になる。
論文 参考訳(メタデータ) (2024-11-15T08:25:14Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - LatentEditor: Text Driven Local Editing of 3D Scenes [8.966537479017951]
テキストプロンプトを用いたニューラルネットワークの精密かつ局所的な編集のためのフレームワークであるtextscLatentEditorを紹介する。
現実のシーンを潜伏空間に埋め込むことに成功したので、より高速で適応性の高いNeRFバックボーンが編集に役立ちます。
提案手法は既存の3D編集モデルと比較して高速な編集速度と出力品質を実現する。
論文 参考訳(メタデータ) (2023-12-14T19:38:06Z) - 4D-Editor: Interactive Object-level Editing in Dynamic Neural Radiance
Fields via Semantic Distillation [2.027159474140712]
動的NeRFを編集するための対話型セマンティック駆動編集フレームワークである4D-Editorを提案する。
我々は,編集後の空間的時間的一貫性を維持するために,ハイブリッドな意味的特徴蒸留を取り入れたオリジナルの動的NeRFの拡張を提案する。
さらに,編集後のシーンキャプチャによる穴を埋めるマルチビュー・リジェクション・インペインティングを開発した。
論文 参考訳(メタデータ) (2023-10-25T02:20:03Z) - DreamEditor: Text-Driven 3D Scene Editing with Neural Fields [115.07896366760876]
テキストプロンプトを用いてニューラルフィールドを編集できる新しいフレームワークを提案する。
DreamEditorは非常に現実的なテクスチャと幾何学を生成し、量的および質的な評価において、以前の作品を大きく上回っている。
論文 参考訳(メタデータ) (2023-06-23T11:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。