論文の概要: Tiny is not small enough: High-quality, low-resource facial animation models through hybrid knowledge distillation
- arxiv url: http://arxiv.org/abs/2507.18352v1
- Date: Thu, 24 Jul 2025 12:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.627279
- Title: Tiny is not small enough: High-quality, low-resource facial animation models through hybrid knowledge distillation
- Title(参考訳): タイニーは十分小さくない:ハイブリッド知識蒸留による高品質で低リソースの顔アニメーションモデル
- Authors: Zhen Han, Mattias Teye, Derek Yadgaroff, Judith Bütepage,
- Abstract要約: ゲーム開発における実機でリアルタイムな顔アニメーションモデルについて検討する。
私たちは、非常に小さな学生モデルを訓練するために、高性能な教師モデルを使用します。
メモリフットプリントを最大3.4MBまで削減し、将来のオーディオコンテキストを最大81msまで削減できる。
- 参考スコア(独自算出の注目度): 11.486241310290954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of high-quality, robust machine learning models for speech-driven 3D facial animation requires a large, diverse dataset of high-quality audio-animation pairs. To overcome the lack of such a dataset, recent work has introduced large pre-trained speech encoders that are robust to variations in the input audio and, therefore, enable the facial animation model to generalize across speakers, audio quality, and languages. However, the resulting facial animation models are prohibitively large and lend themselves only to offline inference on a dedicated machine. In this work, we explore on-device, real-time facial animation models in the context of game development. We overcome the lack of large datasets by using hybrid knowledge distillation with pseudo-labeling. Given a large audio dataset, we employ a high-performing teacher model to train very small student models. In contrast to the pre-trained speech encoders, our student models only consist of convolutional and fully-connected layers, removing the need for attention context or recurrent updates. In our experiments, we demonstrate that we can reduce the memory footprint to up to 3.4 MB and required future audio context to up to 81 ms while maintaining high-quality animations. This paves the way for on-device inference, an important step towards realistic, model-driven digital characters.
- Abstract(参考訳): 音声駆動の3D顔アニメーションのための高品質で堅牢な機械学習モデルのトレーニングには、高品質なオーディオアニメーションペアの大きなデータセットが必要である。
このようなデータセットの欠如を克服するため、最近の研究は、入力音声の変動に頑健な大規模な事前学習音声エンコーダを導入し、それによって、顔のアニメーションモデルが話者、音質、言語をまたいで一般化できるようにする。
しかし、結果として生じる顔のアニメーションモデルは禁止的に大きく、専用のマシン上でのオフライン推論にのみ依存する。
そこで本研究では,ゲーム開発におけるリアルタイム顔アニメーションモデルについて検討する。
擬似ラベル付きハイブリッド知識蒸留を用いて,大規模データセットの不足を克服する。
大規模な音声データセットが与えられた場合、非常に小さな学生モデルを訓練するために高性能な教師モデルを使用します。
事前訓練された音声エンコーダとは対照的に、我々の学生モデルは畳み込み層と完全に接続された層のみで構成されており、注意コンテキストや更新の必要がなくなる。
実験では、メモリフットプリントを最大3.4MBまで削減し、高品質なアニメーションを維持しながら、将来のオーディオコンテキストを最大81ミリ秒まで削減できることを実証した。
これはデバイス上の推論の道を開くもので、リアルでモデル駆動のデジタルキャラクタへの重要なステップである。
関連論文リスト
- EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.214084596349744]
本研究では,多種多様な生成タスクを空間的時間的局所的再構成として扱う,人間アニメーションのための新しい統合マルチタスクパラダイムを提案する。
マルチモーダル分離型クロスアテンションモジュールを導入し,マルチモーダルを分割・分散的に融合する。
本稿では,新しいSFT+Reward交互学習パラダイムを提案する。これは1.3Bパラメータを持つ最小限のモデルで,10倍のパラメータを持つモデルに匹敵する生成品質を実現する。
論文 参考訳(メタデータ) (2025-07-05T05:36:26Z) - TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models [2.176487921193175]
TalkingMachinesは、訓練済みのビデオ生成モデルをリアルタイム、オーディオ駆動のキャラクターアニメーターに変換する効率的なフレームワークである。
TalkingMachinesは、音声大言語モデル(LLM)とビデオ生成基盤モデルを統合することで、自然な会話体験を可能にする。
論文 参考訳(メタデータ) (2025-06-03T17:29:28Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - MagicArticulate: Make Your 3D Models Articulation-Ready [109.35703811628045]
静的な3Dモデルを自動的に調音可能なアセットに変換する効果的なフレームワークであるMagicArticulateを提案する。
まず,高品質な調音アノテーションを備えた33k以上の3Dモデルを含むArticulation-averseベンチマークを紹介し,XL-XLから慎重にキュレートする。
大規模な実験では、MagicArticulateはさまざまなオブジェクトカテゴリで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-17T18:53:27Z) - UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model [4.443066817473078]
さまざまなアノテーションを持つデータセットを活用するために設計されたマルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案する。
トレーニング安定性の向上とマルチヘッド出力の整合性確保のために,PCA,モデルウォームアップ,ピボットIDの埋め込みという3つのトレーニング戦略を採用した。
単一の訓練されたUniTalkerモデルでは、BIWIデータセットでは9.2%、Vocasetでは13.7%の実質的なリップ頂点エラー削減を実現している。
論文 参考訳(メタデータ) (2024-08-01T17:59:27Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - AnimeCeleb: Large-Scale Animation CelebFaces Dataset via Controllable 3D
Synthetic Models [19.6347170450874]
制御可能な合成アニメーションモデルを用いて,大規模なアニメーションセロブフェイスデータセット(AnimeCeleb)を提案する。
データ生成プロセスを容易にするため,オープンな3Dソフトウェアに基づく半自動パイプラインを構築した。
これにより、多目的および多スタイルのアニメーションフェースとリッチアノテーションを備えた大規模なアニメーションフェースデータセットを構築することができる。
論文 参考訳(メタデータ) (2021-11-15T10:00:06Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。