論文の概要: DiffMagicFace: Identity Consistent Facial Editing of Real Videos
- arxiv url: http://arxiv.org/abs/2604.13841v1
- Date: Wed, 15 Apr 2026 13:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.549822
- Title: DiffMagicFace: Identity Consistent Facial Editing of Real Videos
- Title(参考訳): DiffMagicFace: リアルビデオのアイデンティティ一貫性のある顔編集
- Authors: Huanghao Yin, Shenkun Xu, Kanle Shi, Junhai Yong, Bin Wang,
- Abstract要約: DiffMagicFaceは、テキストと画像制御のための2つの微調整されたモデルを統合する、ユニークなビデオ編集フレームワークである。
私たちのアプローチはビデオデータセットに依存しませんが、一貫性とコンテンツの両方で高品質な結果をもたらします。
- 参考スコア(独自算出の注目度): 16.262125513013746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditioned image editing has greatly benefitted from the advancements in Image Diffusion Models. However, extending these techniques to facial video editing introduces challenges in preserving facial identity throughout the source video and ensuring consistency of the edited subject across frames. In this paper, we introduce DiffMagicFace, a unique video editing framework that integrates two fine-tuned models for text and image control. These models operate concurrently during inference to produce video frames that maintain identity features while seamlessly aligning with the editing semantics. To ensure the consistency of the edited videos, we develop a dataset comprising images showcasing various facial perspectives for each edited subject. The creation of a data set is achieved through rendering techniques and the subsequent application of optimization algorithms. Remarkably, our approach does not depend on video datasets but still delivers high-quality results in both consistency and content. The excellent effect holds even for complex tasks like talking head videos and distinguishing closely related categories. The videos edited using our framework exhibit parity with videos that are made using traditional rendering software. Through comparative analysis with current state-of-the-art methods, our framework demonstrates superior performance in both visual appeal and quantitative metrics.
- Abstract(参考訳): テキスト条件付き画像編集は、画像拡散モデルの進歩から大きな恩恵を受けている。
しかし,これらの手法を顔画像編集に拡張することは,映像全体を通して顔の同一性を保ち,編集対象のフレーム間の整合性を確保するという課題を提起する。
本稿では,テキストと画像制御のための2つの微調整モデルを統合する,ユニークなビデオ編集フレームワークであるDiffMagicFaceを紹介する。
これらのモデルは推論中に同時に動作し、編集セマンティクスとシームレスに整合しながらアイデンティティ機能を維持するビデオフレームを生成する。
編集ビデオの一貫性を確保するために,編集対象ごとに様々な顔の視点を示す画像からなるデータセットを開発する。
データセットの作成は、レンダリング技術とその後の最適化アルゴリズムの適用によって達成される。
注目すべきは、我々のアプローチはビデオデータセットに依存するのではなく、一貫性とコンテンツの両方で高品質な結果をもたらすことだ。
この優れた効果は、ヘッドビデオの会話や、密接に関連するカテゴリの区別といった複雑なタスクにも有効だ。
私たちのフレームワークを使って編集されたビデオは、従来のレンダリングソフトウェアで作られたビデオと同等である。
現在の最先端手法との比較分析により,本フレームワークは視覚的魅力と定量的指標の両方において優れた性能を示す。
関連論文リスト
- EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion [12.494492016414503]
既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の保存の困難といった課題に直面している。
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのリッチな潜時空間を活用する新しい顔画像編集フレームワークを提案する。
本手法は,ビデオシーケンス全体の時間的一貫性を維持しながら編集時間を80%削減する。
論文 参考訳(メタデータ) (2025-01-13T18:08:27Z) - Portrait Video Editing Empowered by Multimodal Generative Priors [39.747581584889495]
マルチモーダルプロンプトを用いた一貫した表現型スタイリングを実現する強力なポートレートビデオ編集手法であるPortraitGenを紹介する。
提案手法は,大規模2次元生成モデルから抽出した知識によるマルチモーダル入力を取り入れたものである。
また,表情類似性指導と顔認識画像編集モジュールを内蔵し,反復的データセット更新に伴う劣化問題を効果的に軽減する。
論文 参考訳(メタデータ) (2024-09-20T15:45:13Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。