論文の概要: Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings
- arxiv url: http://arxiv.org/abs/2006.09888v2
- Date: Thu, 22 Oct 2020 21:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:36:30.147974
- Title: Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings
- Title(参考訳): 対面しよう:確率的マルチモーダル・インターロカクター・アウェアによるdyadic設定における顔ジェスチャの生成
- Authors: Patrik Jonell, Taras Kucherenko, Gustav Eje Henter, Jonas Beskow
- Abstract要約: より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
- 参考スコア(独自算出の注目度): 11.741529272872219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable more natural face-to-face interactions, conversational agents need
to adapt their behavior to their interlocutors. One key aspect of this is
generation of appropriate non-verbal behavior for the agent, for example facial
gestures, here defined as facial expressions and head movements. Most existing
gesture-generating systems do not utilize multi-modal cues from the
interlocutor when synthesizing non-verbal behavior. Those that do, typically
use deterministic methods that risk producing repetitive and non-vivid motions.
In this paper, we introduce a probabilistic method to synthesize
interlocutor-aware facial gestures - represented by highly expressive FLAME
parameters - in dyadic conversations. Our contributions are: a) a method for
feature extraction from multi-party video and speech recordings, resulting in a
representation that allows for independent control and manipulation of
expression and speech articulation in a 3D avatar; b) an extension to MoGlow, a
recent motion-synthesis method based on normalizing flows, to also take
multi-modal signals from the interlocutor as input and subsequently output
interlocutor-aware facial gestures; and c) a subjective evaluation assessing
the use and relative importance of the input modalities. The results show that
the model successfully leverages the input from the interlocutor to generate
more appropriate behavior. Videos, data, and code available at:
https://jonepatr.github.io/lets_face_it.
- Abstract(参考訳): より自然な対面インタラクションを可能にするために、会話エージェントは彼らの振る舞いを対話者に適応する必要がある。
この重要な側面の1つは、例えば顔のジェスチャーなど、エージェントの適切な非言語行動の生成であり、ここでは表情と頭の動きとして定義される。
既存のジェスチャ生成システムは、非言語行動の合成において、インターロカタからのマルチモーダルキューを使用しない。
典型的には、繰り返し動作や非生き残り動作のリスクを負う決定論的手法を用いる。
本稿では,高表現率の火炎パラメータで表される対話型顔ジェスチャをdyadic会話で合成する確率的手法を提案する。
私たちの貢献は
イ マルチパーティのビデオ及び音声記録から特徴抽出する方法であって、3Dアバターにおける表現及び音声の独立的な制御及び操作を可能にする表現であること。
b) 最近の流れの正規化に基づく運動合成法であるmoglowの拡張は、インターロカクタからのマルチモーダル信号を入力として、その後、インターロカクタ対応のジェスチャーを出力する。
c) 入力モダリティの使用と相対的重要性を評価する主観的評価。
その結果,モデルが対話者からの入力をうまく活用し,より適切な行動を生成することがわかった。
https://jonepatr.github.io/lets_face_it。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。