論文の概要: MVOC: a training-free multiple video object composition method with diffusion models
- arxiv url: http://arxiv.org/abs/2406.15829v1
- Date: Sat, 22 Jun 2024 12:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:25:27.726406
- Title: MVOC: a training-free multiple video object composition method with diffusion models
- Title(参考訳): MVOC:拡散モデルを用いたトレーニング不要なマルチビデオオブジェクト合成法
- Authors: Wei Wang, Yaosen Chen, Yuegen Liu, Qi Yuan, Shubin Yang, Yanru Zhang,
- Abstract要約: 拡散モデルに基づくMVOC法を提案する。
まず、各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。
次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
- 参考スコア(独自算出の注目度): 10.364986401722625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video composition is the core task of video editing. Although image composition based on diffusion models has been highly successful, it is not straightforward to extend the achievement to video object composition tasks, which not only exhibit corresponding interaction effects but also ensure that the objects in the composited video maintain motion and identity consistency, which is necessary to composite a physical harmony video. To address this challenge, we propose a Multiple Video Object Composition (MVOC) method based on diffusion models. Specifically, we first perform DDIM inversion on each video object to obtain the corresponding noise features. Secondly, we combine and edit each object by image editing methods to obtain the first frame of the composited video. Finally, we use the image-to-video generation model to composite the video with feature and attention injections in the Video Object Dependence Module, which is a training-free conditional guidance operation for video generation, and enables the coordination of features and attention maps between various objects that can be non-independent in the composited video. The final generative model not only constrains the objects in the generated video to be consistent with the original object motion and identity, but also introduces interaction effects between objects. Extensive experiments have demonstrated that the proposed method outperforms existing state-of-the-art approaches. Project page: https://sobeymil.github.io/mvoc.com.
- Abstract(参考訳): ビデオ編集は、ビデオ編集のコアタスクである。
拡散モデルに基づく画像合成は非常に成功しているが、映像オブジェクト合成タスクに成果を拡大することは容易ではない。これは、対応する相互作用効果を示すだけでなく、合成されたビデオ内のオブジェクトが、物理ハーモニービデオの合成に必要な動きとアイデンティティの整合性を維持することを保証する。
この課題に対処するため,拡散モデルに基づくMVOC法を提案する。
具体的には、まず各ビデオオブジェクトに対してDDIMインバージョンを行い、対応するノイズ特性を得る。
次に、画像編集手法で各オブジェクトを合成して編集し、合成ビデオの最初のフレームを得る。
最後に,ビデオ生成のための訓練不要条件付きガイダンス操作であるVideo Object Dependence Moduleにおいて,映像に特徴や注意を注入した映像を合成するために画像から映像生成モデルを用い,合成ビデオに非依存な様々なオブジェクト間の特徴や注意マップの調整を可能にする。
最後の生成モデルは、生成されたビデオ内のオブジェクトを、元のオブジェクトの動きとアイデンティティと整合性に制約するだけでなく、オブジェクト間の相互作用効果も導入する。
大規模な実験により,提案手法は既存の最先端手法よりも優れていることが示された。
プロジェクトページ: https://sobeymil.github.io/mvoc.com
関連論文リスト
- HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
本稿では,ワンショット微調整による未確認課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
映像の動作と外観を効果的に分離するために,時間的二段階学習戦略を設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z) - Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文 参考訳(メタデータ) (2021-05-14T17:57:08Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。