論文の概要: Low-Rank Head Avatar Personalization with Registers
- arxiv url: http://arxiv.org/abs/2506.01935v1
- Date: Mon, 02 Jun 2025 17:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.689623
- Title: Low-Rank Head Avatar Personalization with Registers
- Title(参考訳): 登録情報を用いた低ランクアバターパーソナライズ
- Authors: Sai Tanmay Reddy Chakkera, Aggelina Chatziagapi, Md Moniruzzaman, Chen-Ping Yu, Yi-Hsuan Tsai, Dimitris Samaras,
- Abstract要約: 本稿では,頭部アバター生成のためのジェネリックモデルの低ランクパーソナライズのための新しい手法を提案する。
我々のアプローチは目に見えない顔を忠実に捉え、既存の手法を定量的に質的に上回ります。
- 参考スコア(独自算出の注目度): 36.7667914190956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a novel method for low-rank personalization of a generic model for head avatar generation. Prior work proposes generic models that achieve high-quality face animation by leveraging large-scale datasets of multiple identities. However, such generic models usually fail to synthesize unique identity-specific details, since they learn a general domain prior. To adapt to specific subjects, we find that it is still challenging to capture high-frequency facial details via popular solutions like low-rank adaptation (LoRA). This motivates us to propose a specific architecture, a Register Module, that enhances the performance of LoRA, while requiring only a small number of parameters to adapt to an unseen identity. Our module is applied to intermediate features of a pre-trained model, storing and re-purposing information in a learnable 3D feature space. To demonstrate the efficacy of our personalization method, we collect a dataset of talking videos of individuals with distinctive facial details, such as wrinkles and tattoos. Our approach faithfully captures unseen faces, outperforming existing methods quantitatively and qualitatively. We will release the code, models, and dataset to the public.
- Abstract(参考訳): 本稿では,頭部アバター生成のためのジェネリックモデルの低ランクパーソナライズのための新しい手法を提案する。
先行研究では、複数のアイデンティティの大規模データセットを活用することにより、高品質な顔アニメーションを実現する汎用モデルを提案する。
しかしながら、そのようなジェネリックモデルは通常、一般ドメインを事前に学習しているため、ユニークなアイデンティティ固有の詳細を合成できない。
特定の対象に適応するためには、ローランク適応(LoRA)のような一般的なソリューションを通じて、高周波の顔の詳細を捉えることは依然として困難である。
これにより、特定アーキテクチャであるレジスタモジュールを提案し、LoRAの性能を向上させると同時に、未確認のアイデンティティに適応するためには、少数のパラメータしか必要としない。
本モジュールは,学習可能な3次元特徴空間に情報を格納・再格納する,事前学習されたモデルの中間機能に適用する。
パーソナライズ手法の有効性を示すために,シワやタトゥーなど,独特の顔の細部を持つ人物の発話映像のデータセットを収集した。
我々のアプローチは目に見えない顔を忠実に捉え、既存の手法を定量的に質的に上回ります。
コード、モデル、データセットを一般公開します。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge [33.35678923549471]
textbfFreeCureはパーソナライゼーションモデルの迅速な一貫性を改善するフレームワークである。
本稿では, 個人化プロセスに適切な属性情報をもたらすための, インバージョンベースのプロセスと合わせて, ファンデーションを意識した新たな自己意識モジュールを提案する。
FreeCureは、さまざまな最先端の顔のパーソナライゼーションモデルに対して、迅速な一貫性を顕著に向上させた。
論文 参考訳(メタデータ) (2024-11-22T15:21:38Z) - MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - HeadGAP: Few-Shot 3D Head Avatar via Generalizable Gaussian Priors [24.245586597913082]
本稿では,高忠実かつアニマタブルなロバスト性を持つ数発のインザミルドデータから,新たな3Dヘッドアバター生成手法を提案する。
本稿では,事前学習とアバター生成フェーズからなるフレームワークを提案する。
我々のモデルは、効果的にヘッドプレッシャを活用し、それらを数ショットのパーソナライズに一般化することに成功している。
論文 参考訳(メタデータ) (2024-08-12T09:19:38Z) - Generate Anything Anywhere in Any Scene [25.75076439397536]
パーソナライズされたオブジェクト生成のための制御可能なテキスト・画像拡散モデルを提案する。
本手法は,芸術,エンターテイメント,広告デザインなど,様々な応用の可能性を示すものである。
論文 参考訳(メタデータ) (2023-06-29T17:55:14Z) - Generalizable One-shot Neural Head Avatar [90.50492165284724]
本研究では,1枚の画像から3次元頭部アバターを再構成し,アニメイトする手法を提案する。
本研究では,一視点画像に基づく識別不能な人物を一般化するだけでなく,顔領域内外における特徴的詳細を捉えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T22:33:09Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Thinking the Fusion Strategy of Multi-reference Face Reenactment [4.1509697008011175]
複数の参照画像を用いた単純な拡張は生成品質を著しく向上させることを示す。
本研究は,1)公開データセットの再構成作業,2)複数人の頭部運動映像シーケンスからなる元のデータセットの顔の動き伝達,3)新たに提案した評価指標を用いて,提案手法がより定量的な結果が得られることを検証した。
論文 参考訳(メタデータ) (2022-02-22T09:17:26Z) - PVA: Pixel-aligned Volumetric Avatars [34.929560973779466]
少数の入力から人間の頭部の体積アバターを予測するための新しいアプローチを考案する。
提案手法は,光度再レンダリングによる損失のみを前提としたエンドツーエンドで,明示的な3次元監視を必要とせずに訓練を行う。
論文 参考訳(メタデータ) (2021-01-07T18:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。