Fugu-MT 論文翻訳(概要): DragVideo: Interactive Drag-style Video Editing

論文の概要: DragVideo: Interactive Drag-style Video Editing

arxiv url: http://arxiv.org/abs/2312.02216v1
Date: Sun, 3 Dec 2023 10:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 18:25:31.587717
Title: DragVideo: Interactive Drag-style Video Editing
Title（参考訳）: DragVideo:インタラクティブなドラッグスタイルのビデオ編集
Authors: Yufan Deng, Ruida Wang, Yuhao Zhang, Yu-Wing Tai, Chi-Keung Tang
Abstract要約: DragVideoでは、時間的一貫性を維持しながら動画コンテンツを編集するために、同様のドラッグスタイルのユーザーインタラクションが採用されている。サンプル固有のLoRAファインチューニングと相互自己注意制御を用いて,DoVe法による映像の忠実な再構成を確実にする。 DragVideo Webユーザインターフェースを含む私たちのコードはリリースされます。
参考スコア（独自算出の注目度）: 62.867120306514515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Editing visual content on videos remains a formidable challenge with two main issues: 1) direct and easy user control to produce 2) natural editing results without unsightly distortion and artifacts after changing shape, expression and layout. Inspired by DragGAN, a recent image-based drag-style editing technique, we address above issues by proposing DragVideo, where a similar drag-style user interaction is adopted to edit video content while maintaining temporal consistency. Empowered by recent diffusion models as in DragDiffusion, DragVideo contains the novel Drag-on-Video U-Net (DoVe) editing method, which optimizes diffused video latents generated by video U-Net to achieve the desired control. Specifically, we use Sample-specific LoRA fine-tuning and Mutual Self-Attention control to ensure faithful reconstruction of video from the DoVe method. We also present a series of testing examples for drag-style video editing and conduct extensive experiments across a wide array of challenging editing tasks, such as motion editing, skeleton editing, etc, underscoring DragVideo's versatility and generality. Our codes including the DragVideo web user interface will be released.
Abstract（参考訳）: ビデオ上のビジュアルコンテンツの編集は、大きな課題として2つある。 1)直接的かつ容易なユーザ制御 2)自然編集の結果,形状,表現,レイアウトが変化した後,不明瞭な歪みやアーティファクトは生じない。最近の画像ベースのドラッグスタイル編集技術であるdragganにインスパイアされたdragvideoは、時間的一貫性を維持しながらビデオコンテンツの編集に類似したドラッグスタイルのユーザインタラクションを採用する。 DragDiffusionのような最近の拡散モデルを利用して、DragVideoにはDrag-on-Video U-Net(DoVe)編集方法が含まれており、ビデオU-Netが生成した拡散したビデオラテントを最適化して所望の制御を実現する。具体的には、サンプル固有のLoRA微調整と相互自己注意制御を用いて、DoVe法による映像の忠実な再構成を保証する。また,ドラッグスタイルビデオ編集のための一連のテスト例を示し,モーション編集やスケルトン編集など,dragvideoの汎用性と汎用性を強調する,幅広い編集タスクにわたる広範な実験を行う。 DragVideo Webユーザインターフェースを含む私たちのコードはリリースされます。

関連論文リスト

V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes [29.80140472486948]
V$2$Editは、インストラクション誘導ビデオと3Dシーン編集のためのトレーニング不要のフレームワークである。複雑な編集タスクを単純なサブタスクに分解するプログレッシブ戦略を導入する。 V$2$Edit を "render-edit-reconstruct" プロセスで 3D シーン編集に拡張し,高品質な 3D 一貫性のある編集を可能にする。
論文参考訳（メタデータ） (2025-03-13T17:59:55Z)
Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。 3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。 DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文参考訳（メタデータ） (2025-01-30T18:51:54Z)
DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。既存の方法は直感的で局所的な編集に苦労する。 DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文参考訳（メタデータ） (2024-12-18T07:02:01Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
ReVideo: Remake a Video with Motion and Content Control [67.5923127902463]
本稿では,コンテンツと動画の両方の仕様により,特定の領域における正確な映像編集を可能にするビデオリメイク(VideoRe)を提案する。 VideoReは、コンテンツとモーションコントロールの結合とトレーニングの不均衡を含む新しいタスクに対処する。また,本手法は,特定のトレーニングを変更することなく,その柔軟性と堅牢性を示すことなく,これらのアプリケーションをマルチエリア編集にシームレスに拡張することができる。
論文参考訳（メタデータ） (2024-05-22T17:46:08Z)
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文参考訳（メタデータ） (2024-04-18T23:25:27Z)
UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文参考訳（メタデータ） (2024-02-20T17:52:12Z)
Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。 NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文参考訳（メタデータ） (2023-12-10T16:28:32Z)
VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文参考訳（メタデータ） (2023-11-30T18:59:52Z)
MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文参考訳（メタデータ） (2023-11-30T18:59:33Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文参考訳（メタデータ） (2023-08-28T17:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。