論文の概要: Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark
- arxiv url: http://arxiv.org/abs/2508.12438v1
- Date: Sun, 17 Aug 2025 17:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.77143
- Title: Express4D: Expressive, Friendly, and Extensible 4D Facial Motion Generation Benchmark
- Title(参考訳): Express4D:Expressive, Friendly, Extensible 4D Facial Motion Generation Benchmark
- Authors: Yaron Aloni, Rotem Shalev-Arkushin, Yonatan Shafir, Guy Tevet, Ohad Fried, Amit Haim Bermano,
- Abstract要約: ニュアンスドパフォーマンスと意味的アノテーションを特徴とする顔の動き系列のデータセットを新たに提案する。
データは、商品機器やLLM生成自然言語命令で簡単に収集できる。
Express4Dデータセットを使用して、トレーニングされたモデルは意味のあるテキストから表現へのモーション生成を学習することができる。
- 参考スコア(独自算出の注目度): 15.454507292575139
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Dynamic facial expression generation from natural language is a crucial task in Computer Graphics, with applications in Animation, Virtual Avatars, and Human-Computer Interaction. However, current generative models suffer from datasets that are either speech-driven or limited to coarse emotion labels, lacking the nuanced, expressive descriptions needed for fine-grained control, and were captured using elaborate and expensive equipment. We hence present a new dataset of facial motion sequences featuring nuanced performances and semantic annotation. The data is easily collected using commodity equipment and LLM-generated natural language instructions, in the popular ARKit blendshape format. This provides riggable motion, rich with expressive performances and labels. We accordingly train two baseline models, and evaluate their performance for future benchmarking. Using our Express4D dataset, the trained models can learn meaningful text-to-expression motion generation and capture the many-to-many mapping of the two modalities. The dataset, code, and video examples are available on our webpage: https://jaron1990.github.io/Express4D/
- Abstract(参考訳): 自然言語からの動的表情生成は、アニメーション、仮想アバター、ヒューマンコンピュータインタラクションなど、コンピュータグラフィックスにおいて重要なタスクである。
しかし、現在の生成モデルは、音声駆動または粗い感情ラベルに制限されたデータセットに悩まされており、きめ細かい制御に必要なニュアンスで表現力豊かな記述が欠けており、精巧で高価な機器で撮影されている。
そこで我々は,ニュアンス演出とセマンティックアノテーションを特徴とする顔の動き系列のデータセットを新たに提案する。
データは、一般的なARKitブレンドシェープフォーマットで、コモディティ機器とLLM生成自然言語命令を使用して容易に収集される。
これは、表現力のあるパフォーマンスとラベルに富んだ、厳格な動きを提供する。
そこで本研究では,2つのベースラインモデルをトレーニングし,その性能を将来のベンチマークで評価する。
Express4Dデータセットを使用して、トレーニングされたモデルは意味のあるテキストから表現までのモーション生成を学習し、2つのモードの多対多マッピングをキャプチャすることができる。
データセット、コード、ビデオの例は、私たちのWebページ(https://jaron 1990.github.io/Express4D/)で公開されています。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
大規模言語モデル(LLM)を用いて入力スクリプトを構築し、粗粒度シーン計画と細粒度オブジェクトレベルのレイアウトと動き計画の両方を容易にする。
DreamRunnerは、検索拡張されたテストタイムアダプションで、各シーンのオブジェクトのターゲットモーションをキャプチャし、検索されたビデオに基づいたさまざまなモーションカスタマイズをサポートする。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z) - T2M-X: Learning Expressive Text-to-Motion Generation from Partially Annotated Data [6.6240820702899565]
既存の方法は、表情や手の動きを除いて、身体の動きデータのみを生成する。
このようなデータセットを作成しようとする最近の試みは、異なる身体部位間での運動の不整合をもたらす。
部分注釈付きデータから表現力のあるテキスト・ツー・モーション生成を学習する2段階の方法であるT2M-Xを提案する。
論文 参考訳(メタデータ) (2024-09-20T06:20:00Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - Make-An-Animation: Large-Scale Text-conditional 3D Human Motion
Generation [47.272177594990104]
テキスト条件付き人間動作生成モデルであるMake-An-Animationを紹介する。
大規模な画像テキストデータセットから、より多様なポーズとプロンプトを学ぶ。
テキスト・トゥ・モーション・ジェネレーションの最先端のパフォーマンスに到達します。
論文 参考訳(メタデータ) (2023-05-16T17:58:43Z) - Being Comes from Not-being: Open-vocabulary Text-to-Motion Generation
with Wordless Training [178.09150600453205]
本稿では、ゼロショット学習方式でオフラインのオープン語彙テキスト・トゥ・モーション生成について検討する。
NLPの即時学習にインスパイアされ、マスクされた動きから全動作を再構築する動き生成装置を事前訓練する。
本手法では,入力テキストをマスクした動作に再構成することで,動作生成者の動作を再構築する。
論文 参考訳(メタデータ) (2022-10-28T06:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。