論文の概要: IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion
- arxiv url: http://arxiv.org/abs/2501.07530v1
- Date: Mon, 13 Jan 2025 18:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:01.276271
- Title: IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion
- Title(参考訳): IP-FaceDiff: 拡散による顔画像のアイデンティティ保存
- Authors: Tharun Anand, Aryan Garg, Kaushik Mitra,
- Abstract要約: 既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の保存の困難といった課題に直面している。
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのリッチな潜時空間を活用する新しい顔画像編集フレームワークを提案する。
本手法は,ビデオシーケンス全体の時間的一貫性を維持しながら編集時間を80%削減する。
- 参考スコア(独自算出の注目度): 12.494492016414503
- License:
- Abstract: Facial video editing has become increasingly important for content creators, enabling the manipulation of facial expressions and attributes. However, existing models encounter challenges such as poor editing quality, high computational costs and difficulties in preserving facial identity across diverse edits. Additionally, these models are often constrained to editing predefined facial attributes, limiting their flexibility to diverse editing prompts. To address these challenges, we propose a novel facial video editing framework that leverages the rich latent space of pre-trained text-to-image (T2I) diffusion models and fine-tune them specifically for facial video editing tasks. Our approach introduces a targeted fine-tuning scheme that enables high quality, localized, text-driven edits while ensuring identity preservation across video frames. Additionally, by using pre-trained T2I models during inference, our approach significantly reduces editing time by 80%, while maintaining temporal consistency throughout the video sequence. We evaluate the effectiveness of our approach through extensive testing across a wide range of challenging scenarios, including varying head poses, complex action sequences, and diverse facial expressions. Our method consistently outperforms existing techniques, demonstrating superior performance across a broad set of metrics and benchmarks.
- Abstract(参考訳): 映像編集はコンテンツ制作者にとってますます重要になってきており、表情や属性の操作が可能になっている。
しかし、既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の維持の困難といった課題に直面している。
さらに、これらのモデルは事前に定義された顔属性の編集に制約されることが多く、柔軟性は多様な編集プロンプトに制限される。
これらの課題に対処するために,事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルのリッチな潜伏空間を活用し,顔ビデオ編集タスクに特化して微調整を行う,新しい顔ビデオ編集フレームワークを提案する。
提案手法では,高品質でローカライズされたテキスト駆動編集が可能な微調整方式を導入し,ビデオフレーム間のアイデンティティ保護を実現する。
さらに,事前学習したT2Iモデルを推論中に使用することにより,ビデオシーケンス全体の時間的一貫性を維持しつつ,編集時間を80%削減する。
我々は,多様な頭部ポーズ,複雑なアクションシーケンス,多様な表情を含む,幅広い難易度シナリオを対象とした広範囲なテストを通じて,アプローチの有効性を評価する。
提案手法は既存の手法を常に上回り,幅広いメトリクスとベンチマークで優れた性能を示す。
関連論文リスト
- Learning Feature-Preserving Portrait Editing from Generated Pairs [11.122956539965761]
そこで本研究では,自動生成ペアデータを活用して,所望の編集を学習する学習手法を提案する。
本手法は,最先端の品質を定量的かつ質的に達成する。
論文 参考訳(メタデータ) (2024-07-29T23:19:42Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - DreamIdentity: Improved Editability for Efficient Face-identity
Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。
また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。
我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-01T11:01:17Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - Diffusion Video Autoencoders: Toward Temporally Consistent Face Video
Editing via Disentangled Video Encoding [35.18070525015657]
拡散オートエンコーダに基づく新しい顔映像編集フレームワークを提案する。
我々のモデルは拡散モデルに基づいており、再構築と編集の両方を同時に行うことができる。
論文 参考訳(メタデータ) (2022-12-06T07:41:51Z) - A Latent Transformer for Disentangled and Identity-Preserving Face
Editing [3.1542695050861544]
本稿では,StyleGANジェネレータの潜時空間を介して顔属性を編集することを提案する。
我々は、専用潜伏変換ネットワークを訓練し、損失関数に明示的な絡み合いとアイデンティティ保存項を組み込む。
本モデルは,現実的な(非合成的な)画像やビデオの難易度においても,不整合で制御可能で,顔属性の編集が可能なモデルである。
論文 参考訳(メタデータ) (2021-06-22T16:04:30Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。