論文の概要: V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data
- arxiv url: http://arxiv.org/abs/2406.14510v1
- Date: Thu, 20 Jun 2024 17:14:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:33:17.516628
- Title: V-LASIK: Consistent Glasses-Removal from Videos Using Synthetic Data
- Title(参考訳): V-LASIK:連続ガラス-合成データによる映像の除去
- Authors: Rotem Shalev-Arkushin, Aharon Azulay, Tavi Halperin, Eitan Richardson, Amit H. Bermano, Ohad Fried,
- Abstract要約: 拡散に基づく生成モデルは、最近顕著な画像編集機能とビデオ編集機能を示している。
本研究は,動画における一貫した局所属性除去のケーススタディとして,映像中の眼鏡の一貫性とアイデンティティ保護の除去に焦点をあてる。
データ不完全にもかかわらず、当社のモデルは元のビデオコンテンツを保存しながら、所望の編集を一貫して行うことができることを示す。
- 参考スコア(独自算出の注目度): 20.23001319056999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have recently shown remarkable image and video editing capabilities. However, local video editing, particularly removal of small attributes like glasses, remains a challenge. Existing methods either alter the videos excessively, generate unrealistic artifacts, or fail to perform the requested edit consistently throughout the video. In this work, we focus on consistent and identity-preserving removal of glasses in videos, using it as a case study for consistent local attribute removal in videos. Due to the lack of paired data, we adopt a weakly supervised approach and generate synthetic imperfect data, using an adjusted pretrained diffusion model. We show that despite data imperfection, by learning from our generated data and leveraging the prior of pretrained diffusion models, our model is able to perform the desired edit consistently while preserving the original video content. Furthermore, we exemplify the generalization ability of our method to other local video editing tasks by applying it successfully to facial sticker-removal. Our approach demonstrates significant improvement over existing methods, showcasing the potential of leveraging synthetic data and strong video priors for local video editing tasks.
- Abstract(参考訳): 拡散に基づく生成モデルは、最近顕著な画像編集機能とビデオ編集機能を示している。
しかし、ローカルビデオ編集、特にメガネのような小さな属性の削除は依然として課題である。
既存の方法は、ビデオを過度に変更したり、非現実的なアーティファクトを生成したり、要求された編集をビデオを通して一貫して実行できない。
本研究では,映像における一貫した局所属性除去のケーススタディとして,映像中の眼鏡の一貫性とアイデンティティ保護の除去に焦点をあてる。
ペアデータがないため、調整済み拡散モデルを用いて、弱教師付きアプローチを採用し、合成不完全データを生成する。
データ不完全性にもかかわらず、生成したデータから学習し、事前訓練された拡散モデルを活用することにより、元のビデオコンテンツを保存しながら、所望の編集を一貫して行うことができることを示す。
さらに,顔ステッカー除去に有効に適用することで,他のローカルビデオ編集タスクに対する手法の一般化能力を実証する。
提案手法は既存の手法よりも大幅に改善され, ローカルビデオ編集作業において, 合成データと強力なビデオ先行処理を活用する可能性が示された。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Data Collection-free Masked Video Modeling [6.641717260925999]
静的な画像を活用してコストを低減したビデオのための効果的な自己教師型学習フレームワークを提案する。
これらの擬似モーションビデオは、マスク付きビデオモデリングに活用される。
提案手法は合成画像にも適用可能であり,ビデオ学習をデータ収集から完全に解放することは,実際のデータに対する他の懸念も伴う。
論文 参考訳(メタデータ) (2024-09-10T17:34:07Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion
Models [96.55004961251889]
Video Instruction Diffusion (VIDiff) は、幅広いビデオタスク用に設計された統合基盤モデルである。
我々のモデルは,ユーザの指示に基づいて,所望の結果を数秒以内に編集し,翻訳することができる。
様々な入力ビデオや書き起こしに対して,質的かつ定量的に,説得力のある生成結果を提供する。
論文 参考訳(メタデータ) (2023-11-30T18:59:52Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models [68.31777975873742]
ビデオ編集の最近の試みは、トレーニングに大量のテキスト・ビデオデータと計算資源を必要とする。
我々は、ゼロショットビデオ編集のためのシンプルで効果的な方法であるvid2vid-zeroを提案する。
実験と分析は、現実世界のビデオの属性、主題、場所などの編集において有望な結果を示す。
論文 参考訳(メタデータ) (2023-03-30T17:59:25Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - Learning to Cut by Watching Movies [114.57935905189416]
本稿は,コンピュータ映像編集の新しい課題,すなわちカットの可否をかき集めることに焦点を当てる。
私たちのキーとなるアイデアは、すでに編集済みのコンテンツを活用して、カットをトリガーするきめ細かいオーディオ視覚パターンを学ぶことです。
コントラスト学習により,リアルカットと人工カットの区別を学習するモデルを考案する。
論文 参考訳(メタデータ) (2021-08-09T18:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。