論文の概要: MobileFaceSwap: A Lightweight Framework for Video Face Swapping
- arxiv url: http://arxiv.org/abs/2201.03808v1
- Date: Tue, 11 Jan 2022 06:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 14:17:35.447103
- Title: MobileFaceSwap: A Lightweight Framework for Video Face Swapping
- Title(参考訳): MobileFaceSwap: ビデオ顔スワッピングのための軽量フレームワーク
- Authors: Zhiliang Xu, Zhibin Hong, Changxing Ding, Zhen Zhu, Junyu Han, Jingtuo
Liu, Errui Ding
- Abstract要約: 主観的顔交換のための軽量IDN(IDN)を提案する。
提示されたIDNは0.50Mパラメータのみを含み、1フレームあたり0.33GのFLOPを必要とするため、携帯電話でリアルタイムのビデオ顔交換が可能である。
- 参考スコア(独自算出の注目度): 56.87690462046143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced face swapping methods have achieved appealing results. However, most
of these methods have many parameters and computations, which makes it
challenging to apply them in real-time applications or deploy them on edge
devices like mobile phones. In this work, we propose a lightweight
Identity-aware Dynamic Network (IDN) for subject-agnostic face swapping by
dynamically adjusting the model parameters according to the identity
information. In particular, we design an efficient Identity Injection Module
(IIM) by introducing two dynamic neural network techniques, including the
weights prediction and weights modulation. Once the IDN is updated, it can be
applied to swap faces given any target image or video. The presented IDN
contains only 0.50M parameters and needs 0.33G FLOPs per frame, making it
capable for real-time video face swapping on mobile phones. In addition, we
introduce a knowledge distillation-based method for stable training, and a loss
reweighting module is employed to obtain better synthesized results. Finally,
our method achieves comparable results with the teacher models and other
state-of-the-art methods.
- Abstract(参考訳): 高度な顔交換法は魅力的な結果を得た。
しかし、これらのメソッドの多くは多くのパラメータと計算を持っているため、リアルタイムアプリケーションに適用したり、携帯電話のようなエッジデバイスにデプロイすることは困難である。
本研究では,識別情報に基づいてモデルパラメータを動的に調整し,主観的顔交換のための軽量ID-Aware Dynamic Network (IDN)を提案する。
特に,重み予測と重み変調を含む2つの動的ニューラルネットワーク技術を導入することで,効率的なid注入モジュール(iim)を設計する。
IDNが更新されると、ターゲット画像やビデオが与えられた顔のスワップに適用される。
提示されたIDNは0.50Mパラメータのみを含み、1フレームあたり0.33GのFLOPを必要とするため、携帯電話でリアルタイムのビデオ顔交換が可能である。
さらに, 安定トレーニングのための知識蒸留に基づく方法を導入し, よりよい合成結果を得るために損失重み付けモジュールを用いる。
最後に,本手法は教師モデルや他の最先端手法と同等の結果を得る。
関連論文リスト
- DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models [4.851981427563145]
ビデオクリップから3Dヘッドアバターを生成するダイナミックモデルであるDynamicAvatarsを提案する。
提案手法は,新規なプロンプトベースの編集モデルによる正確な編集を可能にする。
論文 参考訳(メタデータ) (2024-11-24T06:22:30Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Migrating Face Swap to Mobile Devices: A lightweight Framework and A
Supervised Training Solution [7.572886749166295]
MobileFSGANは、顔スワップ用の新しい軽量なGANで、競合性能を達成しつつ、はるかに少ないパラメータでモバイルデバイスで実行できる。
軽量エンコーダ・デコーダ構造は、特に画像合成タスクのために設計されており、10.2MBしかなく、モバイルデバイス上でリアルタイムに動作させることができる。
論文 参考訳(メタデータ) (2022-04-13T05:35:11Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。