論文の概要: Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
- arxiv url: http://arxiv.org/abs/2508.13797v1
- Date: Tue, 19 Aug 2025 12:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.924135
- Title: Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing
- Title(参考訳): Sketch3DVE:Sketchベースの3D対応のシーンビデオ編集
- Authors: Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao,
- Abstract要約: ビデオ中の3Dシーンの構造的内容の編集は依然として難しい。
主な課題は、オリジナルのビデオと一貫性のある新しいビューコンテンツの生成だ。
スケッチに基づく3次元映像編集手法であるSketch3DVEを提案する。
- 参考スコア(独自算出の注目度): 41.74354582607005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video editing methods achieve attractive results in style transfer or appearance modification. However, editing the structural content of 3D scenes in videos remains challenging, particularly when dealing with significant viewpoint changes, such as large camera rotations or zooms. Key challenges include generating novel view content that remains consistent with the original video, preserving unedited regions, and translating sparse 2D inputs into realistic 3D video outputs. To address these issues, we propose Sketch3DVE, a sketch-based 3D-aware video editing method to enable detailed local manipulation of videos with significant viewpoint changes. To solve the challenge posed by sparse inputs, we employ image editing methods to generate edited results for the first frame, which are then propagated to the remaining frames of the video. We utilize sketching as an interaction tool for precise geometry control, while other mask-based image editing methods are also supported. To handle viewpoint changes, we perform a detailed analysis and manipulation of the 3D information in the video. Specifically, we utilize a dense stereo method to estimate a point cloud and the camera parameters of the input video. We then propose a point cloud editing approach that uses depth maps to represent the 3D geometry of newly edited components, aligning them effectively with the original 3D scene. To seamlessly merge the newly edited content with the original video while preserving the features of unedited regions, we introduce a 3D-aware mask propagation strategy and employ a video diffusion model to produce realistic edited videos. Extensive experiments demonstrate the superiority of Sketch3DVE in video editing. Homepage and code: http://http://geometrylearning.com/Sketch3DVE/
- Abstract(参考訳): 近年の映像編集手法は, スタイル変換や外観修正において, 魅力的な結果をもたらす。
しかし、ビデオにおける3Dシーンの構造的内容の編集は、特に大きなカメラ回転やズームのような重要な視点の変化を扱う場合、依然として困難である。
主な課題は、オリジナルビデオと一致しない新しいビューコンテンツの生成、未編集領域の保存、スパース2D入力をリアルな3Dビデオ出力に変換することである。
これらの問題に対処するために,スケッチベースの3D対応ビデオ編集手法であるSketch3DVEを提案する。
スパース入力による課題を解決するため,第1フレームの編集結果を生成するために画像編集手法を採用し,映像の残りのフレームに伝搬する。
我々は、スケッチを正確な幾何学的制御のための相互作用ツールとして利用し、他のマスクベースの画像編集方法もサポートしている。
視点変化に対処するため,映像中の3次元情報の詳細な解析と操作を行う。
具体的には、高密度ステレオ法を用いて、入力ビデオの点雲とカメラパラメータを推定する。
そこで我々は,新たに編集されたコンポーネントの3次元形状を表現するために,深度マップを用いたポイントクラウド編集手法を提案し,それらを元の3次元シーンと効果的に整合させる。
編集済み領域の特徴を保存しながら、編集済みコンテンツとオリジナル動画をシームレスに融合させるため、3D対応マスク伝搬戦略を導入し、映像拡散モデルを用いてリアルな編集ビデオを生成する。
ビデオ編集におけるSketch3DVEの優位性を示す大規模な実験を行った。
ホームページとコード:http://http://geometrylearning.com/Sketch3DVE/
関連論文リスト
- Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [36.08715662927022]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。
我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文 参考訳(メタデータ) (2025-06-27T17:59:01Z) - SketchVideo: Sketch-based Video Generation and Editing [51.99066098393491]
本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。
DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。
スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文 参考訳(メタデータ) (2025-03-30T02:44:09Z) - VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors [27.685348720003823]
静止画とカメラモーションの映像の3Dオブジェクト合成を編集する手法として名前を提案する。
提案手法では,ビデオの全フレームにわたる3次元オブジェクトの位置を時間的に一貫した方法で編集することができる。
論文 参考訳(メタデータ) (2025-03-03T02:29:48Z) - DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
既存の方法は直感的で局所的な編集に苦労する。
DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T07:02:01Z) - PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。
本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-16T17:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。