論文の概要: Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings
- arxiv url: http://arxiv.org/abs/2006.09888v2
- Date: Thu, 22 Oct 2020 21:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:36:30.147974
- Title: Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings
- Title(参考訳): 対面しよう:確率的マルチモーダル・インターロカクター・アウェアによるdyadic設定における顔ジェスチャの生成
- Authors: Patrik Jonell, Taras Kucherenko, Gustav Eje Henter, Jonas Beskow
- Abstract要約: より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
- 参考スコア(独自算出の注目度): 11.741529272872219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable more natural face-to-face interactions, conversational agents need
to adapt their behavior to their interlocutors. One key aspect of this is
generation of appropriate non-verbal behavior for the agent, for example facial
gestures, here defined as facial expressions and head movements. Most existing
gesture-generating systems do not utilize multi-modal cues from the
interlocutor when synthesizing non-verbal behavior. Those that do, typically
use deterministic methods that risk producing repetitive and non-vivid motions.
In this paper, we introduce a probabilistic method to synthesize
interlocutor-aware facial gestures - represented by highly expressive FLAME
parameters - in dyadic conversations. Our contributions are: a) a method for
feature extraction from multi-party video and speech recordings, resulting in a
representation that allows for independent control and manipulation of
expression and speech articulation in a 3D avatar; b) an extension to MoGlow, a
recent motion-synthesis method based on normalizing flows, to also take
multi-modal signals from the interlocutor as input and subsequently output
interlocutor-aware facial gestures; and c) a subjective evaluation assessing
the use and relative importance of the input modalities. The results show that
the model successfully leverages the input from the interlocutor to generate
more appropriate behavior. Videos, data, and code available at:
https://jonepatr.github.io/lets_face_it.
- Abstract(参考訳): より自然な対面インタラクションを可能にするために、会話エージェントは彼らの振る舞いを対話者に適応する必要がある。
この重要な側面の1つは、例えば顔のジェスチャーなど、エージェントの適切な非言語行動の生成であり、ここでは表情と頭の動きとして定義される。
既存のジェスチャ生成システムは、非言語行動の合成において、インターロカタからのマルチモーダルキューを使用しない。
典型的には、繰り返し動作や非生き残り動作のリスクを負う決定論的手法を用いる。
本稿では,高表現率の火炎パラメータで表される対話型顔ジェスチャをdyadic会話で合成する確率的手法を提案する。
私たちの貢献は
イ マルチパーティのビデオ及び音声記録から特徴抽出する方法であって、3Dアバターにおける表現及び音声の独立的な制御及び操作を可能にする表現であること。
b) 最近の流れの正規化に基づく運動合成法であるmoglowの拡張は、インターロカクタからのマルチモーダル信号を入力として、その後、インターロカクタ対応のジェスチャーを出力する。
c) 入力モダリティの使用と相対的重要性を評価する主観的評価。
その結果,モデルが対話者からの入力をうまく活用し,より適切な行動を生成することがわかった。
https://jonepatr.github.io/lets_face_it。
関連論文リスト
- Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Passing a Non-verbal Turing Test: Evaluating Gesture Animations
Generated from Speech [6.445605125467574]
本稿では,音声から直接ジェスチャーを生成する新しいデータ駆動手法を提案する。
本手法は,音声とジェスチャーの因果関係をモデル化するためのGAN(Generative Adversarial Neural Networks)の適用に基づく。
本研究では,仮想キャラクタ上で生成されたジェスチャをアニメーション化し,ユーザが生成したジェスチャと記録したジェスチャを区別できないことを示す。
論文 参考訳(メタデータ) (2021-07-01T19:38:43Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。