論文の概要: VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence
- arxiv url: http://arxiv.org/abs/2312.02087v1
- Date: Mon, 4 Dec 2023 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:17:53.600525
- Title: VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence
- Title(参考訳): videowap:インタラクティブなセマンティックポイント対応でビデオ主題をスワップする
- Authors: Yuchao Gu, Yipin Zhou, Bichen Wu, Licheng Yu, Jia-Wei Liu, Rui Zhao,
Jay Zhangjie Wu, David Junhao Zhang, Mike Zheng Shou, Kevin Tang
- Abstract要約: 密度の高い対応に依存するビデオ編集アプローチは、ターゲット編集が形状変化を伴う場合、効果がない。
我々は,対象者の運動軌跡を調整し,その形状を変更するために,少数の意味点しか必要としないという観察から着想を得た VideoSwap フレームワークを紹介した。
大規模な実験では、さまざまな現実世界のビデオで結果を交換する最先端のビデオ被験者がデモされている。
- 参考スコア(独自算出の注目度): 37.85691662157054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current diffusion-based video editing primarily focuses on
structure-preserved editing by utilizing various dense correspondences to
ensure temporal consistency and motion alignment. However, these approaches are
often ineffective when the target edit involves a shape change. To embark on
video editing with shape change, we explore customized video subject swapping
in this work, where we aim to replace the main subject in a source video with a
target subject having a distinct identity and potentially different shape. In
contrast to previous methods that rely on dense correspondences, we introduce
the VideoSwap framework that exploits semantic point correspondences, inspired
by our observation that only a small number of semantic points are necessary to
align the subject's motion trajectory and modify its shape. We also introduce
various user-point interactions (\eg, removing points and dragging points) to
address various semantic point correspondence. Extensive experiments
demonstrate state-of-the-art video subject swapping results across a variety of
real-world videos.
- Abstract(参考訳): 現在の拡散に基づくビデオ編集は、時間的一貫性と動きのアライメントを確保するために、様々な密接な対応を利用する構造保存編集に重点を置いている。
しかし、これらのアプローチは、ターゲット編集が形状変化を伴う場合、しばしば効果がない。
形状変化を伴う映像編集を行うために,本研究では,映像の主主題を個別の同一性と潜在的に異なる形状の対象対象に置き換えることを目的とした,カスタマイズされた映像主題交換について検討する。
従来の高密度対応手法とは対照的に,本研究では,対象の運動軌跡を整列し形状を変更するために,少数の意味点しか必要としないという観察から着想を得た,意味点対応を利用した VideoSwap フレームワークを導入する。
また,様々な意味点対応に対応するために,様々なユーザ・ポイント間インタラクション(例えば,ポイントの削除,ドラッグポイント)を導入する。
広範囲な実験により、実世界の様々なビデオで最先端のビデオテーマスワップ結果が実証された。
関連論文リスト
- HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。