論文の概要: Superior and Pragmatic Talking Face Generation with Teacher-Student Framework
- arxiv url: http://arxiv.org/abs/2403.17883v1
- Date: Tue, 26 Mar 2024 17:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:27:54.623134
- Title: Superior and Pragmatic Talking Face Generation with Teacher-Student Framework
- Title(参考訳): 教師学習型フレームワークによる表層的・現実的な発話顔生成
- Authors: Chao Liang, Jianwen Jiang, Tianyun Zhong, Gaojie Lin, Zhengkun Rong, Jiaqi Yang, Yongming Zhu,
- Abstract要約: トーキングフェース生成技術は、任意の外観とモーション信号からトークビデオを生成する。
既存の手法は標準的な入力ではうまく機能するが、複雑な実世界の入力では深刻な性能劣化に悩まされる。
品質、堅牢性、コスト、編集性のバランスをとる教師学生向けフレームワークであるSuperFaceを紹介します。
- 参考スコア(独自算出の注目度): 16.489105620313065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking face generation technology creates talking videos from arbitrary appearance and motion signal, with the "arbitrary" offering ease of use but also introducing challenges in practical applications. Existing methods work well with standard inputs but suffer serious performance degradation with intricate real-world ones. Moreover, efficiency is also an important concern in deployment. To comprehensively address these issues, we introduce SuperFace, a teacher-student framework that balances quality, robustness, cost and editability. We first propose a simple but effective teacher model capable of handling inputs of varying qualities to generate high-quality results. Building on this, we devise an efficient distillation strategy to acquire an identity-specific student model that maintains quality with significantly reduced computational load. Our experiments validate that SuperFace offers a more comprehensive solution than existing methods for the four mentioned objectives, especially in reducing FLOPs by 99\% with the student model. SuperFace can be driven by both video and audio and allows for localized facial attributes editing.
- Abstract(参考訳): トーキングフェース生成技術は、任意の外観と動きの信号から会話ビデオを生成し、"arbitrary"は使いやすさを提供すると同時に、実用上の課題も導入する。
既存の手法は標準的な入力ではうまく機能するが、複雑な実世界の入力では深刻な性能劣化に悩まされる。
さらに、効率性もデプロイメントにおいて重要な関心事です。
これらの問題に包括的に対処するために,品質,堅牢性,コスト,編集性のバランスをとる教師学生向けフレームワークであるSuperFaceを紹介した。
まず, 様々な品質の入力を処理し, 質の高い結果を生成する, シンプルだが効果的な教師モデルを提案する。
これに基づいて,計算負荷を大幅に削減して品質を維持するアイデンティティ特化学生モデルを取得するための,効率的な蒸留戦略を考案する。
実験の結果,SuperFaceは4つの目的に対して既存の方法よりも包括的ソリューションを提供しており,特に学生モデルでFLOPを99\%削減できることがわかった。
SuperFaceはビデオとオーディオの両方で駆動でき、ローカライズされた顔属性の編集を可能にする。
関連論文リスト
- FaceChain-FACT: Face Adapter with Decoupled Training for Identity-preserved Personalization [24.600720169589334]
アダプタベースの手法は、顔データに対するテキスト・ツー・イメージのトレーニングによって、肖像画をカスタマイズし、生成する能力を得る。
ベースモデルと比較して、テスト後の能力、制御性、生成した顔の多様性が著しく低下することが多い。
我々は、モデルアーキテクチャとトレーニング戦略の両方に焦点を当てた、非結合トレーニング(FACT)フレームワークによるFace Adapterを提案する。
論文 参考訳(メタデータ) (2024-10-16T07:25:24Z) - Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control [59.954322727683746]
Face-Adapterは、事前訓練された拡散モデルのための高精度で忠実な顔編集のために設計されている。
Face-Adapterは、モーションコントロールの精度、ID保持能力、生成品質の点で同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2024-05-21T17:50:12Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Faceptor: A Generalist Model for Face Perception [52.8066001012464]
Faceptorは、よく設計されたシングルエンコーダのデュアルデコーダアーキテクチャを採用するために提案されている。
Faceptorへのレイヤアテンションにより、モデルが最適なレイヤから機能を適応的に選択して、望ましいタスクを実行することができる。
我々のトレーニングフレームワークは補助的な教師付き学習にも適用でき、年齢推定や表現認識といったデータスパースタスクの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-14T15:42:31Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - A Simple and Generic Framework for Feature Distillation via Channel-wise
Transformation [35.233203757760066]
学習可能な非線形チャネルワイズ変換を提案し,教師モデルと生徒の特徴を一致させる。
本手法は,様々なコンピュータビジョンタスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2023-03-23T12:13:29Z) - The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers [14.467509261354458]
本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発する。
入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。
学生の注意点が最も低いマスキングパッチは極めて有効であり,教師のFLOPの最大50%を学生の精度の低下なしに節約できることがわかった。
論文 参考訳(メタデータ) (2023-02-21T07:48:34Z) - MobileFaceSwap: A Lightweight Framework for Video Face Swapping [56.87690462046143]
主観的顔交換のための軽量IDN(IDN)を提案する。
提示されたIDNは0.50Mパラメータのみを含み、1フレームあたり0.33GのFLOPを必要とするため、携帯電話でリアルタイムのビデオ顔交換が可能である。
論文 参考訳(メタデータ) (2022-01-11T06:48:12Z) - Smooth-Swap: A Simple Enhancement for Face-Swapping with Smoothness [18.555874044296463]
我々はSmooth-Swapと呼ばれる新しいフェイススワッピングモデルを提案する。
複雑な手作りデザインを使わずに、アイデンティティの埋め込みの滑らかさを導出することに焦点を当てている。
我々のモデルは量的にも質的にも、アイデンティティの変化の観点からも既存の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-11T03:26:32Z) - Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging [19.285149134711382]
音声の発声特性に基づく顔画像生成は重要な課題である。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、顔の類似性を維持するのに失敗する。
本稿では,顔への音声融合(SF2F)を提案し,音声特徴領域と現代画像生成モデルとの接続性の問題に対処する。
論文 参考訳(メタデータ) (2020-06-10T15:19:31Z) - Differentially Private Deep Learning with Smooth Sensitivity [144.31324628007403]
プライバシーに関する懸念を、差分プライバシーのレンズを通して研究する。
このフレームワークでは、モデルのトレーニングに使用されるデータの詳細が曖昧になるようにモデルを摂動することで、一般的にプライバシー保証が得られます。
過去の研究で使われた最も重要なテクニックの1つは、教師モデルのアンサンブルであり、ノイズの多い投票手順に基づいて生徒に情報を返す。
本研究では,イミュータブルノイズArgMaxと呼ばれるスムーズな感性を有する新しい投票機構を提案する。これは,ある条件下では,学生に伝達される有用な情報に影響を与えることなく,教師から非常に大きなランダムノイズを発生させることができる。
論文 参考訳(メタデータ) (2020-03-01T15:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。