論文の概要: Drag-A-Video: Non-rigid Video Editing with Point-based Interaction
- arxiv url: http://arxiv.org/abs/2312.02936v1
- Date: Tue, 5 Dec 2023 18:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:45:47.681688
- Title: Drag-A-Video: Non-rigid Video Editing with Point-based Interaction
- Title(参考訳): drag-a-video:ポイントベースインタラクションによる非剛性ビデオ編集
- Authors: Yao Teng, Enze Xie, Yue Wu, Haoyu Han, Zhenguo Li and Xihui Liu
- Abstract要約: そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
- 参考スコア(独自算出の注目度): 63.78538355189017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video editing is a challenging task that requires manipulating videos on both
the spatial and temporal dimensions. Existing methods for video editing mainly
focus on changing the appearance or style of the objects in the video, while
keeping their structures unchanged. However, there is no existing method that
allows users to interactively ``drag'' any points of instances on the first
frame to precisely reach the target points with other frames consistently
deformed. In this paper, we propose a new diffusion-based method for
interactive point-based video manipulation, called Drag-A-Video. Our method
allows users to click pairs of handle points and target points as well as masks
on the first frame of an input video. Then, our method transforms the inputs
into point sets and propagates these sets across frames. To precisely modify
the contents of the video, we employ a new video-level motion supervision to
update the features of the video and introduce the latent offsets to achieve
this update at multiple denoising timesteps. We propose a temporal-consistent
point tracking module to coordinate the movement of the points in the handle
point sets. We demonstrate the effectiveness and flexibility of our method on
various videos. The website of our work is available here:
https://drag-a-video.github.io/.
- Abstract(参考訳): ビデオ編集は、空間次元と時間次元の両方でビデオを操作する必要がある難しい作業である。
既存のビデオ編集方法は、主にビデオ内のオブジェクトの外観やスタイルを変更することに焦点を当て、その構造は変わらない。
しかしながら、ユーザが対話的に最初のフレーム上の任意のインスタンスのポイントを 'drag'' して、常に変形した他のフレームでターゲットポイントに正確に到達できるような方法が存在しない。
本稿では,Drag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散方式を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
そして,入力を点集合に変換し,これらの集合をフレーム間で伝播させる。
映像の内容を正確に修正するために,映像の特徴をアップデートし,遅延オフセットを導入し,複数のデノライゼーション時間ステップでこの更新を実現するために,新たな映像レベルの動作監督を行う。
本稿では,ハンドル点集合内の点の動きを調整するための時間一貫性のある点追跡モジュールを提案する。
本手法の有効性と柔軟性を各種ビデオで実証する。
私たちの仕事のWebサイトはこちらで入手できる。
関連論文リスト
- InVi: Object Insertion In Videos Using Off-the-Shelf Diffusion Models [46.587906540660455]
InViは、ビデオ内のオブジェクトを挿入または置換するためのアプローチで、オフザシェルフ、テキスト・ツー・イメージの潜伏拡散モデルを用いて導入する。
InViは、フレーム間の一貫したブレンディングとコヒーレンスで現実的なオブジェクト挿入を実現し、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-15T17:55:09Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence [37.85691662157054]
密度の高い対応に依存するビデオ編集アプローチは、ターゲット編集が形状変化を伴う場合、効果がない。
我々は,対象者の運動軌跡を調整し,その形状を変更するために,少数の意味点しか必要としないという観察から着想を得た VideoSwap フレームワークを紹介した。
大規模な実験では、さまざまな現実世界のビデオで結果を交換する最先端のビデオ被験者がデモされている。
論文 参考訳(メタデータ) (2023-12-04T17:58:06Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Deformable Sprites for Unsupervised Video Decomposition [66.73136214980309]
それぞれのシーン要素を3つのコンポーネントからなるemphDeformable Spriteとして表現します。
その結果生じる分解により、一貫したビデオ編集のようなアプリケーションが可能になる。
論文 参考訳(メタデータ) (2022-04-14T17:58:02Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。