論文の概要: Drag-A-Video: Non-rigid Video Editing with Point-based Interaction
- arxiv url: http://arxiv.org/abs/2312.02936v1
- Date: Tue, 5 Dec 2023 18:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:45:47.681688
- Title: Drag-A-Video: Non-rigid Video Editing with Point-based Interaction
- Title(参考訳): drag-a-video:ポイントベースインタラクションによる非剛性ビデオ編集
- Authors: Yao Teng, Enze Xie, Yue Wu, Haoyu Han, Zhenguo Li and Xihui Liu
- Abstract要約: そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
- 参考スコア(独自算出の注目度): 63.78538355189017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video editing is a challenging task that requires manipulating videos on both
the spatial and temporal dimensions. Existing methods for video editing mainly
focus on changing the appearance or style of the objects in the video, while
keeping their structures unchanged. However, there is no existing method that
allows users to interactively ``drag'' any points of instances on the first
frame to precisely reach the target points with other frames consistently
deformed. In this paper, we propose a new diffusion-based method for
interactive point-based video manipulation, called Drag-A-Video. Our method
allows users to click pairs of handle points and target points as well as masks
on the first frame of an input video. Then, our method transforms the inputs
into point sets and propagates these sets across frames. To precisely modify
the contents of the video, we employ a new video-level motion supervision to
update the features of the video and introduce the latent offsets to achieve
this update at multiple denoising timesteps. We propose a temporal-consistent
point tracking module to coordinate the movement of the points in the handle
point sets. We demonstrate the effectiveness and flexibility of our method on
various videos. The website of our work is available here:
https://drag-a-video.github.io/.
- Abstract(参考訳): ビデオ編集は、空間次元と時間次元の両方でビデオを操作する必要がある難しい作業である。
既存のビデオ編集方法は、主にビデオ内のオブジェクトの外観やスタイルを変更することに焦点を当て、その構造は変わらない。
しかしながら、ユーザが対話的に最初のフレーム上の任意のインスタンスのポイントを 'drag'' して、常に変形した他のフレームでターゲットポイントに正確に到達できるような方法が存在しない。
本稿では,Drag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散方式を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
そして,入力を点集合に変換し,これらの集合をフレーム間で伝播させる。
映像の内容を正確に修正するために,映像の特徴をアップデートし,遅延オフセットを導入し,複数のデノライゼーション時間ステップでこの更新を実現するために,新たな映像レベルの動作監督を行う。
本稿では,ハンドル点集合内の点の動きを調整するための時間一貫性のある点追跡モジュールを提案する。
本手法の有効性と柔軟性を各種ビデオで実証する。
私たちの仕事のWebサイトはこちらで入手できる。
関連論文リスト
- MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence [37.85691662157054]
密度の高い対応に依存するビデオ編集アプローチは、ターゲット編集が形状変化を伴う場合、効果がない。
我々は,対象者の運動軌跡を調整し,その形状を変更するために,少数の意味点しか必要としないという観察から着想を得た VideoSwap フレームワークを紹介した。
大規模な実験では、さまざまな現実世界のビデオで結果を交換する最先端のビデオ被験者がデモされている。
論文 参考訳(メタデータ) (2023-12-04T17:58:06Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Hashing Neural Video Decomposition with Multiplicative Residuals in
Space-Time [14.015909536844337]
本稿では,時間的に異なる照明効果を持つ映像の階層的編集を容易にする映像分解手法を提案する。
本手法は,座標ハッシュを用いて1フレームあたり25秒で1080pビデオの層ベースニューラル表現を効率よく学習する。
本稿では,映像編集の一貫性を客観的に評価するための評価指標を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:36:14Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Deformable Sprites for Unsupervised Video Decomposition [66.73136214980309]
それぞれのシーン要素を3つのコンポーネントからなるemphDeformable Spriteとして表現します。
その結果生じる分解により、一貫したビデオ編集のようなアプリケーションが可能になる。
論文 参考訳(メタデータ) (2022-04-14T17:58:02Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。