論文の概要: ReactFace: Multiple Appropriate Facial Reaction Generation in Dyadic
Interactions
- arxiv url: http://arxiv.org/abs/2305.15748v1
- Date: Thu, 25 May 2023 05:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:04:08.816765
- Title: ReactFace: Multiple Appropriate Facial Reaction Generation in Dyadic
Interactions
- Title(参考訳): reactface: dyadic相互作用における複数の適切な顔反応生成
- Authors: Cheng Luo, Siyang Song, Weicheng Xie, Micol Spitale, Linlin Shen,
Hatice Gunes
- Abstract要約: ダイアドインタラクションでは、同じ話者の行動に反応する異なる反応が適切である可能性があるため、リスナーの表情反応を予測することは困難である。
本稿では,話者の行動から適切な顔反応分布を学習するReactFaceという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.882412173055172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dyadic interaction, predicting the listener's facial reactions is
challenging as different reactions may be appropriate in response to the same
speaker's behaviour. This paper presents a novel framework called ReactFace
that learns an appropriate facial reaction distribution from a speaker's
behaviour rather than replicating the real facial reaction of the listener.
ReactFace generates multiple different but appropriate photo-realistic human
facial reactions by (i) learning an appropriate facial reaction distribution
representing multiple appropriate facial reactions; and (ii) synchronizing the
generated facial reactions with the speaker's verbal and non-verbal behaviours
at each time stamp, resulting in realistic 2D facial reaction sequences.
Experimental results demonstrate the effectiveness of our approach in
generating multiple diverse, synchronized, and appropriate facial reactions
from each speaker's behaviour, with the quality of the generated reactions
being influenced by the speaker's speech and facial behaviours. Our code is
made publicly available at \url{https://github.com/lingjivoo/ReactFace}.
- Abstract(参考訳): dyadicインタラクションでは、異なる反応が同じ話者の行動に応じて適切である可能性があるため、聞き手の表情反応を予測することは困難である。
本稿では,リスナの実際の顔反応を再現するのではなく,話者の行動から適切な顔反応分布を学習するReactFaceという新しいフレームワークを提案する。
ReactFaceは複数の異なるが適切な人間の顔反応を生成する
(i)複数の適切な顔反応を表す適切な顔反応分布を学習すること。
2) 話者の発話行動と非言語行動とを時間スタンプ毎に同期させることにより, 現実的な2次元顔反応シーケンスが得られた。
実験の結果,各話者の行動から多様,同期,適切な顔反応を発生させる手法の有効性が示され,生成反応の質は話者の発話や顔の行動に左右されることがわかった。
私たちのコードは、 \url{https://github.com/lingjivoo/ReactFace}で公開されています。
関連論文リスト
- DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - MRecGen: Multimodal Appropriate Reaction Generator [31.60823534748163]
本稿では,最初のマルチモーダル・マルチモーダル(言語的・非言語的)なヒト反応生成フレームワークを提案する。
これは、適切な仮想エージェント/ロボットの振る舞いを生成することによって、様々な人間とコンピュータの相互作用シナリオに適用することができる。
論文 参考訳(メタデータ) (2023-07-05T19:07:00Z) - Reversible Graph Neural Network-based Reaction Distribution Learning for
Multiple Appropriate Facial Reactions Generation [22.579200870471475]
本稿では,最初の複数顔反応生成フレームワークを提案する。
顔の反応生成問題を1対1のマッピング問題として再定式化する。
実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。
論文 参考訳(メタデータ) (2023-05-24T15:56:26Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z) - Multiple Appropriate Facial Reaction Generation in Dyadic Interaction
Settings: What, Why and How? [11.130984858239412]
本稿では,本論文で初めて,多目的反応生成タスクを定義した。
次に、生成した反応の妥当性を評価するために、新しい客観的評価指標を提案する。
その後、複数の適切な顔反応を予測、生成、評価するための枠組みを紹介した。
論文 参考訳(メタデータ) (2023-02-13T16:49:27Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Mapping the Space of Chemical Reactions Using Attention-Based Neural
Networks [0.3848364262836075]
本研究は, トランスフォーマトモデルが, 非注釈的, 単純な化学反応表現から反応クラスを推定できることを示した。
我々の最良のモデルは98.2%の分類精度に達する。
学習した指紋によって得られる化学反応空間に関する洞察は、インタラクティブな反応アトラスによって示されます。
論文 参考訳(メタデータ) (2020-12-09T10:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。