論文の概要: KeyframeFace: From Text to Expressive Facial Keyframes
- arxiv url: http://arxiv.org/abs/2512.11321v1
- Date: Fri, 12 Dec 2025 06:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.681601
- Title: KeyframeFace: From Text to Expressive Facial Keyframes
- Title(参考訳): KeyframeFace: テキストから表現力のある顔のキーフレームへ
- Authors: Jingchao Wu, Zejian Kang, Haibo Liu, Yuanchen Fei, Xiangru Huang,
- Abstract要約: KeyframeFaceは大規模なマルチモーダルデータセットで、監督を通じてテキストからアニメーションの研究用に設計されている。
KeyframeFaceは、モノクロビデオ、フレームごとのARKit係数、コンテキスト背景、複雑な感情、手動で定義された動的アノテーション、マルチパースペクティブと組み合わせた2,100の表現型スクリプトを提供する。
本稿では,Large Language Models (LLMs) とMultimodal Large Language Models (MLLMs) を顔の動きの解釈に用いた最初のテキスト・アニメーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.765243906818779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating dynamic 3D facial animation from natural language requires understanding both temporally structured semantics and fine-grained expression changes. Existing datasets and methods mainly focus on speech-driven animation or unstructured expression sequences and therefore lack the semantic grounding and temporal structures needed for expressive human performance generation. In this work, we introduce KeyframeFace, a large-scale multimodal dataset designed for text-to-animation research through keyframe-level supervision. KeyframeFace provides 2,100 expressive scripts paired with monocular videos, per-frame ARKit coefficients, contextual backgrounds, complex emotions, manually defined keyframes, and multi-perspective annotations based on ARKit coefficients and images via Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Beyond the dataset, we propose the first text-to-animation framework that explicitly leverages LLM priors for interpretable facial motion synthesis. This design aligns the semantic understanding capabilities of LLMs with the interpretable structure of ARKit's coefficients, enabling high-fidelity expressive animation. KeyframeFace and our LLM-based framework together establish a new foundation for interpretable, keyframe-guided, and context-aware text-to-animation. Code and data are available at https://github.com/wjc12345123/KeyframeFace.
- Abstract(参考訳): 動的3D顔アニメーションを自然言語から生成するには、時間的に構造化された意味論と微細な表現の変化の両方を理解する必要がある。
既存のデータセットや手法は、主に音声駆動のアニメーションや非構造的表現シーケンスに焦点を合わせており、それゆえ、表現力のある人のパフォーマンス生成に必要な意味的基盤や時間的構造が欠如している。
本稿では,キーフレームレベルの監視によるテキスト・アニメーション研究用に設計された大規模マルチモーダルデータセットであるKeyframeFaceを紹介する。
KeyframeFaceは、モノクロビデオ、フレームごとのARKit係数、コンテキスト背景、複雑な感情、手動で定義されたキーフレーム、ARKit係数とLarge Language Models (LLMs)およびMultimodal Large Language Models (MLLMs)による画像に基づくマルチパースペクティブアノテーションを備えた2,100の表現型スクリプトを提供する。
データセット以外にも,LLMの先行処理を解釈可能な顔動作合成に用いた最初のテキスト・アニメーションフレームワークを提案する。
この設計は、LLMのセマンティック理解能力をARKitの係数の解釈可能な構造と整合させ、高忠実度表現型アニメーションを可能にする。
KeyframeFaceとLLMベースのフレームワークは、解釈、キーフレーム誘導、コンテキスト対応のテキスト・トゥ・アニメーションのための新しい基盤を確立します。
コードとデータはhttps://github.com/wjc12345123/KeyframeFaceで入手できる。
関連論文リスト
- From Captions to Keyframes: KeyScore for Multimodal Frame Scoring and Video-Language Understanding [1.3856027745141806]
KeyScoreは、キャプションと意味的類似性、時間的代表性、文脈的ドロップインパクトを組み合わせたキャプション対応のフレームスコアリング手法である。
提案手法は効率と性能を両立させ,拡張性とキャプションによる映像理解を可能にする。
論文 参考訳(メタデータ) (2025-10-07T23:02:27Z) - AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective [15.69417162113696]
AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。
AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-15T15:34:02Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Mimir: Improving Video Diffusion Models for Precise Text Understanding [53.72393225042688]
テキストは、ナラティブな性質のため、ビデオ生成におけるキーコントロールシグナルとして機能する。
近年の大規模言語モデル(LLM)の成功はデコーダのみのトランスフォーマーのパワーを示している。
この作業は、慎重に調整されたトークンフィーザーを備えたエンドツーエンドのトレーニングフレームワークであるMimirによる、この課題に対処する。
論文 参考訳(メタデータ) (2024-12-04T07:26:44Z) - DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
大規模言語モデル(LLM)を用いて入力スクリプトを構築し、粗粒度シーン計画と細粒度オブジェクトレベルのレイアウトと動き計画の両方を容易にする。
DreamRunnerは、検索拡張されたテストタイムアダプションで、各シーンのオブジェクトのターゲットモーションをキャプチャし、検索されたビデオに基づいたさまざまなモーションカスタマイズをサポートする。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion
Synthesis [21.57205701909026]
我々は,KeyFrames Collaborated を用いたテキスト駆動動作合成のための条件拡散モデル DiffKFC を提案する。
提案モデルでは, 意味的忠実度の観点から最先端のパフォーマンスを実現するが, より重要なことは, 退屈な労力を伴わずに細かなガイダンスによりアニメーターの要求を満たすことができることである。
論文 参考訳(メタデータ) (2023-05-23T07:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。