論文の概要: Towards the generation of synchronized and believable non-verbal facial
behaviors of a talking virtual agent
- arxiv url: http://arxiv.org/abs/2311.12804v1
- Date: Fri, 15 Sep 2023 07:25:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 15:45:52.464683
- Title: Towards the generation of synchronized and believable non-verbal facial
behaviors of a talking virtual agent
- Title(参考訳): 対話型仮想エージェントの非言語的顔行動の同期化に向けて
- Authors: Alice Delbosc (TALEP, LIS, AMU), Magalie Ochs (LIS, AMU, TALEP),
Nicolas Sabouret (LISN), Brian Ravenet (LISN), St\'ephane Ayache (AMU, LIS,
QARMA)
- Abstract要約: 本稿では,会話中の仮想エージェントに対して,リズミカルな非言語的顔行動を生成する新しいモデルを提案する。
1つのデータではなく2つの異なるデータセットでモデルをトレーニングすることは、必ずしもパフォーマンスを向上するとは限らないことに気付きました。
また、学習期間中に偽の偽例が紹介される逆モデルを用いることで、音声との同期の知覚が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new model to generate rhythmically relevant
non-verbal facial behaviors for virtual agents while they speak. The model
demonstrates perceived performance comparable to behaviors directly extracted
from the data and replayed on a virtual agent, in terms of synchronization with
speech and believability. Interestingly, we found that training the model with
two different sets of data, instead of one, did not necessarily improve its
performance. The expressiveness of the people in the dataset and the shooting
conditions are key elements. We also show that employing an adversarial model,
in which fabricated fake examples are introduced during the training phase,
increases the perception of synchronization with speech. A collection of videos
demonstrating the results and code can be accessed at:
https://github.com/aldelb/non_verbal_facial_animation.
- Abstract(参考訳): 本稿では,会話中の仮想エージェントに対して,リズミカルな非言語行動を生成する新しいモデルを提案する。
このモデルは、データから直接抽出され、仮想エージェント上で再生される行動に匹敵する知覚性能を、音声と可読性との同期の観点から示す。
興味深いことに、2つの異なるデータセットでモデルをトレーニングすることは、必ずしもそのパフォーマンスを向上させるものではないことがわかった。
データセット内の人々の表現力と射撃条件が重要な要素である。
また、学習期間中に偽の偽例が紹介される逆モデルを用いることで、音声との同期の知覚が向上することを示す。
結果とコードを示すビデオのコレクションは、https://github.com/aldelb/non_verbal_face_animation.comでアクセスすることができる。
関連論文リスト
- InterAct: Capture and Modelling of Realistic, Expressive and Interactive Activities between Two Persons in Daily Scenarios [12.300105542672163]
我々は、2人の人物がシーケンス全体にわたって現実的なシナリオを実行する241のモーションシーケンスをキャプチャする。
両方の人の音声、身体の動き、表情はすべて、私たちのデータセットでキャプチャされます。
また,音声のみから2人の対話的動きを直接推定する拡散モデルに基づく最初のアプローチを示す。
論文 参考訳(メタデータ) (2024-05-19T22:35:02Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - GestSync: Determining who is speaking without a talking head [67.75387744442727]
本稿では,ジェスチャ・シンク (Gesture-Sync) を導入する。
Lip-Syncと比較して、Gesture-Syncは、声と体の動きの間にはるかに緩い関係があるため、はるかに難しい。
このモデルは自己教師付き学習だけで訓練でき、LSS3データセット上での性能を評価することができる。
論文 参考訳(メタデータ) (2023-10-08T22:48:30Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Neural Face Models for Example-Based Visual Speech Synthesis [2.2817442144155207]
マルチビュー映像に基づく顔の動きキャプチャのためのマーカーレスアプローチを提案する。
アニメーション中の表情をシームレスに表現するために,表情のニューラル表現を学習する。
論文 参考訳(メタデータ) (2020-09-22T07:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。