論文の概要: VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors
- arxiv url: http://arxiv.org/abs/2503.01107v2
- Date: Thu, 27 Mar 2025 00:01:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:01.707924
- Title: VideoHandles: Editing 3D Object Compositions in Videos Using Video Generative Priors
- Title(参考訳): VideoHandles: ビデオ生成プリミティブを使ってビデオ内の3Dオブジェクトのコンポジションを編集する
- Authors: Juil Koo, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Minhyuk Sung,
- Abstract要約: 静止画とカメラモーションの映像の3Dオブジェクト合成を編集する手法として名前を提案する。
提案手法では,ビデオの全フレームにわたる3次元オブジェクトの位置を時間的に一貫した方法で編集することができる。
- 参考スコア(独自算出の注目度): 27.685348720003823
- License:
- Abstract: Generative methods for image and video editing use generative models as priors to perform edits despite incomplete information, such as changing the composition of 3D objects shown in a single image. Recent methods have shown promising composition editing results in the image setting, but in the video setting, editing methods have focused on editing object's appearance and motion, or camera motion, and as a result, methods to edit object composition in videos are still missing. We propose \name as a method for editing 3D object compositions in videos of static scenes with camera motion. Our approach allows editing the 3D position of a 3D object across all frames of a video in a temporally consistent manner. This is achieved by lifting intermediate features of a generative model to a 3D reconstruction that is shared between all frames, editing the reconstruction, and projecting the features on the edited reconstruction back to each frame. To the best of our knowledge, this is the first generative approach to edit object compositions in videos. Our approach is simple and training-free, while outperforming state-of-the-art image editing baselines.
- Abstract(参考訳): 画像およびビデオ編集のための生成方法は、単一の画像に表示された3Dオブジェクトの構成を変更するなど、不完全な情報にもかかわらず編集を行うために生成モデルを使用する。
近年では画像設定において有望な合成結果が示されているが、ビデオ設定では、オブジェクトの外観や動きやカメラの動きを編集する編集方法が注目されており、その結果、ビデオ中のオブジェクトの合成を編集する方法がまだ欠落している。
そこで我々は,静的シーンとカメラモーションの3Dオブジェクト合成を編集する手法として,Shanameを提案する。
提案手法では,ビデオの全フレームにわたる3次元オブジェクトの位置を時間的に一貫した方法で編集することができる。
これは、生成モデルの中間的特徴を、すべてのフレーム間で共有される3次元再構成に引き上げ、再構成を編集し、編集された再構成の特徴を各フレームに投影することで達成される。
私たちの知る限りでは、これはビデオ中のオブジェクトの合成を編集する最初の生成的アプローチである。
我々のアプローチはシンプルで、トレーニング不要で、最先端の画像編集ベースラインより優れています。
関連論文リスト
- MVOC: a training-free multiple video object composition method with diffusion models [10.364986401722625]
拡散モデルに基づくMVOC法を提案する。
まず、各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。
次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
論文 参考訳(メタデータ) (2024-06-22T12:18:46Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion [19.969947635371]
Videoshopは、ローカライズされたセマンティック編集のためのトレーニング不要のビデオ編集アルゴリズムである。
ユーザーはオブジェクトの追加や削除、セマンティックな変更、ストック写真をビデオに挿入したり、場所や外観を細かくコントロールできる。
Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。
論文 参考訳(メタデータ) (2024-03-21T17:59:03Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - OBJECT 3DIT: Language-guided 3D-aware Image Editing [27.696507467754877]
既存の画像編集ツールは、画像が投影される基礎となる3D幾何学を無視している。
画像中のオブジェクトは、下層の3Dシーンの文脈で、言語命令に従って編集されるべきである。
我々は,手続き的に生成された3Dシーンから作成した400Kの編集例からなるデータセットOBJECTをリリースした。
私たちのモデルでは、周囲の物体、表面、照明条件、影、物理的に表現可能な物体構成など、シーン全体の3D構成を理解する能力が印象的です。
論文 参考訳(メタデータ) (2023-07-20T17:53:46Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。