論文の概要: V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes
- arxiv url: http://arxiv.org/abs/2503.10634v2
- Date: Fri, 14 Mar 2025 23:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:26.407517
- Title: V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes
- Title(参考訳): V2Edit:ビデオと3Dシーンのためのビデオ拡散エディタ
- Authors: Yanming Zhang, Jun-Kun Chen, Jipeng Lyu, Yu-Xiong Wang,
- Abstract要約: V$2$Editは、インストラクション誘導ビデオと3Dシーン編集のためのトレーニング不要のフレームワークである。
複雑な編集タスクを単純なサブタスクに分解するプログレッシブ戦略を導入する。
V$2$Edit を "render-edit-reconstruct" プロセスで 3D シーン編集に拡張し,高品質な 3D 一貫性のある編集を可能にする。
- 参考スコア(独自算出の注目度): 29.80140472486948
- License:
- Abstract: This paper introduces V$^2$Edit, a novel training-free framework for instruction-guided video and 3D scene editing. Addressing the critical challenge of balancing original content preservation with editing task fulfillment, our approach employs a progressive strategy that decomposes complex editing tasks into a sequence of simpler subtasks. Each subtask is controlled through three key synergistic mechanisms: the initial noise, noise added at each denoising step, and cross-attention maps between text prompts and video content. This ensures robust preservation of original video elements while effectively applying the desired edits. Beyond its native video editing capability, we extend V$^2$Edit to 3D scene editing via a "render-edit-reconstruct" process, enabling high-quality, 3D-consistent edits even for tasks involving substantial geometric changes such as object insertion. Extensive experiments demonstrate that our V$^2$Edit achieves high-quality and successful edits across various challenging video editing tasks and complex 3D scene editing tasks, thereby establishing state-of-the-art performance in both domains.
- Abstract(参考訳): 本稿では,命令誘導ビデオと3Dシーン編集のための新しいトレーニングフリーフレームワークであるV$^2$Editを紹介する。
編集タスクの補完とオリジナルコンテンツ保存のバランスをとる上で重要な課題として,複雑な編集タスクを単純なサブタスクのシーケンスに分解するプログレッシブ戦略を採用した。
各サブタスクは、初期ノイズ、各聴覚ステップで付加されるノイズ、テキストプロンプトとビデオコンテンツ間の相互アテンションマップの3つの主要なシナジスティックメカニズムによって制御される。
これにより、所望の編集を効果的に適用しながら、オリジナルビデオ要素の堅牢な保存が保証される。
また,V$^2$Editを「レンダリング・編集・再構成」プロセスで3Dシーン編集に拡張し,オブジェクト挿入などの幾何的変化を伴うタスクに対しても高品質で3D一貫性のある編集を可能にする。
我々のV$^2$Editは、様々な困難なビデオ編集タスクや複雑な3Dシーン編集タスクにまたがって高品質で良好な編集を実現し、両領域で最先端のパフォーマンスを確立することを実証した。
関連論文リスト
- DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
既存の方法は直感的で局所的な編集に苦労する。
DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T07:02:01Z) - CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion [13.744253074367885]
本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。
提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。
最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:38:51Z) - ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing [33.42456524414643]
ProEditは、拡散蒸留によって誘導される高品質な3Dシーン編集のためのフレームワークである。
我々のフレームワークはFOSのサイズを制御し、全体的な編集タスクを複数のサブタスクに分解することで一貫性を低下させる。
ProEditは、様々な場面で最先端の結果を達成し、編集作業に挑戦する。
論文 参考訳(メタデータ) (2024-11-07T18:59:54Z) - ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。
VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。
また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T17:46:08Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。
提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文 参考訳(メタデータ) (2024-03-11T22:46:46Z) - Free-Editor: Zero-shot Text-driven 3D Scene Editing [8.966537479017951]
大規模なデータセットが不足しているため、3次元シーン編集に特化した拡散モデルを訓練することは困難である。
モデル再学習を必要とせずに3Dシーンを編集できる「textscFree-Editor」という新しい3Dシーン編集技術を紹介した。
本手法は,SOTA(State-of-the-art)手法におけるマルチビュースタイルの不整合の問題を効果的に解決する。
論文 参考訳(メタデータ) (2023-12-21T08:40:57Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。