論文の概要: MetaPortrait: Identity-Preserving Talking Head Generation with Fast
Personalized Adaptation
- arxiv url: http://arxiv.org/abs/2212.08062v2
- Date: Sat, 17 Dec 2022 02:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 11:57:35.736196
- Title: MetaPortrait: Identity-Preserving Talking Head Generation with Fast
Personalized Adaptation
- Title(参考訳): MetaPortrait: パーソナライズされた高速適応によるアイデンティティ保護型トーキングヘッド生成
- Authors: Bowen Zhang, Chenyang Qi, Pan Zhang, Bo Zhang, HsiangTao Wu, Dong
Chen, Qifeng Chen, Yong Wang, Fang Wen
- Abstract要約: 本稿では,ID保存型音声ヘッド生成フレームワークを提案する。
密集したランドマークは、正確な幾何認識フローフィールドを達成するために不可欠であると主張する。
我々は、合成中にソースアイデンティティを適応的に融合させ、画像ポートレートのキー特性をよりよく保存する。
- 参考スコア(独自算出の注目度): 57.060828009199646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose an ID-preserving talking head generation framework,
which advances previous methods in two aspects. First, as opposed to
interpolating from sparse flow, we claim that dense landmarks are crucial to
achieving accurate geometry-aware flow fields. Second, inspired by
face-swapping methods, we adaptively fuse the source identity during synthesis,
so that the network better preserves the key characteristics of the image
portrait. Although the proposed model surpasses prior generation fidelity on
established benchmarks, to further make the talking head generation qualified
for real usage, personalized fine-tuning is usually needed. However, this
process is rather computationally demanding that is unaffordable to standard
users. To solve this, we propose a fast adaptation model using a meta-learning
approach. The learned model can be adapted to a high-quality personalized model
as fast as 30 seconds. Last but not the least, a spatial-temporal enhancement
module is proposed to improve the fine details while ensuring temporal
coherency. Extensive experiments prove the significant superiority of our
approach over the state of the arts in both one-shot and personalized settings.
- Abstract(参考訳): 本研究では,従来の手法を2つの側面で前進させる,ID保存型音声ヘッド生成フレームワークを提案する。
まず, スパースフローからの補間とは対照的に, 密集したランドマークは, 正確な幾何学的認識フロー場を達成するために重要であると主張する。
第2に,フェース・スワッピング法に触発されて,合成中の音源識別を適応的に融合させることで,画像像のキー特性をよりよく保存する。
提案手法は, 既存のベンチマークにおいて, 従来モデルよりも精度が高いが, さらに実使用に適した発話ヘッド生成を実現するためには, パーソナライズされた微調整が必要である。
しかし、このプロセスは標準ユーザーには不都合な計算的な要求がある。
そこで本研究ではメタラーニング手法を用いた高速適応モデルを提案する。
学習したモデルは、高品質のパーソナライズされたモデルに30秒で適応できる。
最後に,時間的コヒーレンシを確保しつつ細部の改善を図るため,空間的時間的拡張モジュールを提案する。
広範にわたる実験は、ワンショットとパーソナライズされた設定の両方において、芸術の状況に対する我々のアプローチの顕著な優位性を証明している。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Latent Diffusion Models for Attribute-Preserving Image Anonymization [4.080920304681247]
本稿では,遅延拡散モデル(LDM)に基づく画像匿名化への最初のアプローチを提案する。
CAFLaGE-Baseは、事前訓練された制御ネットと、実画像と匿名画像との距離を増やすために設計された新しい制御機構を組み合わせた2つのLCMを提案する。
論文 参考訳(メタデータ) (2024-03-21T19:09:21Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。