論文の概要: Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization
- arxiv url: http://arxiv.org/abs/2603.08645v1
- Date: Mon, 09 Mar 2026 17:24:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.600506
- Title: Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization
- Title(参考訳): Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization
- Authors: Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski,
- Abstract要約: RAF(Retrieval-Augmented Faces)は、データから変形を学習するテンプレートレスヘッドアバター用に設計された、簡単なトレーニング時間拡張である。
RAFは、被験者の表現のサブセットを、被験者のオリジナルのフレームを再構築しながら、この銀行から取得した最も近い隣の表現に置き換える。
RAFは、自動運転とクロスドライブの両方のシナリオにおいて、ベースラインに対する表現の忠実度を一貫して改善する。
- 参考スコア(独自算出の注目度): 39.32685427601982
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Template-free animatable head avatars can achieve high visual fidelity by learning expression-dependent facial deformation directly from a subject's capture, avoiding parametric face templates and hand-designed blendshape spaces. However, since learned deformation is supervised only by the expressions observed for a single identity, these models suffer from limited expression coverage and often struggle when driven by motions that deviate from the training distribution. We introduce RAF (Retrieval-Augmented Faces), a simple training-time augmentation designed for template-free head avatars that learn deformation from data. RAF constructs a large unlabeled expression bank and, during training, replaces a subset of the subject's expression features with nearest-neighbor expressions retrieved from this bank while still reconstructing the subject's original frames. This exposes the deformation field to a broader range of expression conditions, encouraging stronger identity-expression decoupling and improving robustness to expression distribution shift without requiring paired cross-identity data, additional annotations, or architectural changes. We further analyze how retrieval augmentation increases expression diversity and validate retrieval quality with a user study showing that retrieved neighbors are perceptually closer in expression and pose. Experiments on the NeRSemble benchmark demonstrate that RAF consistently improves expression fidelity over the baseline, in both self-driving and cross-driving scenarios.
- Abstract(参考訳): テンプレートフリーのアニマタブルヘッドアバターは、被験者のキャプチャから直接表情依存の顔変形を学習し、パラメトリックな顔テンプレートや手作りのブレンドシェープ空間を避けることで、高い視覚的忠実性を達成することができる。
しかし、学習された変形は単一のアイデンティティで観察される表現によってのみ制御されるため、これらのモデルは限られた表現カバレッジに悩まされ、トレーニング分布から逸脱する動きによって駆動される場合、しばしば苦労する。
RAF(Retrieval-Augmented Faces)は、データから変形を学習するテンプレートレスヘッドアバター用に設計された、簡単なトレーニング時間拡張である。
RAFは、大きなラベルのない表現バンクを構築し、トレーニング中に、被験者の表現機能のサブセットを、被験者のオリジナルのフレームを再構築しながら、このバンクから取得した最も近い隣の表現に置き換える。
これにより、変形フィールドはより広い範囲の表現条件に公開され、より強力なアイデンティティと表現の分離が促進され、ペアのクロスアイデンティティデータ、追加アノテーション、アーキテクチャ変更を必要とせずに、表現の分散シフトに対する堅牢性が改善される。
さらに,検索により表現の多様性が向上し,検索品質が向上するかを,検索した隣人が表現とポーズにおいて知覚的に近いことを示すユーザスタディを用いて分析した。
NeRSembleベンチマークの実験では、RAFは、自動運転とクロスドライブの両方のシナリオにおいて、ベースラインに対する表現の忠実度を一貫して改善している。
関連論文リスト
- ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion [40.50436862878818]
特定の表情の被写体を忠実に再現する拡散型フレームワークを提案する。
我々のアダプタは、基本的な感情を超えて微妙なマイクロ表現と表現的遷移を一般化する。
さらに、プラグ可能な参照アダプタは、合成中に参照フレームから外観を転送することで、実画像での表現編集を可能にする。
論文 参考訳(メタデータ) (2025-10-06T11:20:56Z) - SEREP: Semantic Facial Expression Representation for Robust In-the-Wild Capture and Retargeting [4.083283519300837]
セマンティックレベルで表現をアイデンティティから切り離すモデルであるSEREPを提案する。
我々は、低品質合成データを用いた新しい半教師付きスキームに基づいて、単眼画像から表現を予測するモデルを訓練する。
実験の結果、SEREPは最先端の手法よりも優れており、挑戦的な表現をキャプチャし、それらを新しいアイデンティティに転送する。
論文 参考訳(メタデータ) (2024-12-18T22:12:28Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - LatentAvatar: Learning Latent Expression Code for Expressive Neural Head
Avatar [60.363572621347565]
我々は,潜在性発現コードによって駆動される表現型神経頭アバターであるLatentAvatarを提示する。
LatentAvatarは、挑戦的な表情や、歯や眼球の微妙な動きを捉えることができる。
論文 参考訳(メタデータ) (2023-05-02T03:49:12Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - MorphGAN: One-Shot Face Synthesis GAN for Detecting Recognition Bias [13.162012586770576]
本論文では, 頭部ポーズと表情調節を, 既視者の画像に適用するシミュレータについて述べる。
顔の小さなデータセットを新しいポーズと表現で拡張することで、増強やデータの不足に応じて、認識性能を最大9%向上することを示す。
論文 参考訳(メタデータ) (2020-12-09T18:43:03Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。