論文の概要: ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions
- arxiv url: http://arxiv.org/abs/2305.15748v2
- Date: Mon, 04 Nov 2024 00:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:25:57.659823
- Title: ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions
- Title(参考訳): ReactFace: ダイアドインタラクションにおけるオンライン多重顔反応生成
- Authors: Cheng Luo, Siyang Song, Weicheng Xie, Micol Spitale, Zongyuan Ge, Linlin Shen, Hatice Gunes,
- Abstract要約: ダイアドインタラクションでは、聴取者の顔反応を予測することは困難であり、同じ話者の振る舞いに応じて異なる反応が適している可能性がある。
本稿では,外挿や予測問題としてタスクを再構築し,複数の異なる顔反応を生成する新しいフレームワーク(ReactFace)を提案する。
- 参考スコア(独自算出の注目度): 46.66378299720377
- License:
- Abstract: In dyadic interaction, predicting the listener's facial reactions is challenging as different reactions could be appropriate in response to the same speaker's behaviour. Previous approaches predominantly treated this task as an interpolation or fitting problem, emphasizing deterministic outcomes but ignoring the diversity and uncertainty of human facial reactions. Furthermore, these methods often failed to model short-range and long-range dependencies within the interaction context, leading to issues in the synchrony and appropriateness of the generated facial reactions. To address these limitations, this paper reformulates the task as an extrapolation or prediction problem, and proposes an novel framework (called ReactFace) to generate multiple different but appropriate facial reactions from a speaker behaviour rather than merely replicating the corresponding listener facial behaviours. Our ReactFace generates multiple different but appropriate photo-realistic human facial reactions by: (i) learning an appropriate facial reaction distribution representing multiple different but appropriate facial reactions; and (ii) synchronizing the generated facial reactions with the speaker verbal and non-verbal behaviours at each time stamp, resulting in realistic 2D facial reaction sequences. Experimental results demonstrate the effectiveness of our approach in generating multiple diverse, synchronized, and appropriate facial reactions from each speaker's behaviour. The quality of the generated facial reactions is intimately tied to the speaker's speech and facial expressions, achieved through our novel speaker-listener interaction modules. Our code is made publicly available at \url{https://github.com/lingjivoo/ReactFace}.
- Abstract(参考訳): ダイアドインタラクションでは、聴取者の顔反応を予測することは困難であり、同じ話者の振る舞いに応じて異なる反応が適している可能性がある。
従来のアプローチでは、このタスクを補間的あるいは適合的な問題として扱い、決定論的結果を強調する一方で、人間の顔反応の多様性と不確実性を無視していた。
さらに、これらの手法は、相互作用コンテキスト内の短距離および長距離の依存関係をモデル化することができず、生成した顔反応の同期性や適切性の問題に繋がった。
これらの制約に対処するため、本論文では、タスクを外挿や予測問題として再定義し、対応するリスナーの顔動作を単に複製するのではなく、話者行動から複数の異なる適切な顔反応を生成する新しいフレームワーク(ReactFace)を提案する。
私たちのReactFaceは、複数の異なるが適切なフォトリアリスティックな人間の顔反応を生成します。
一 複数の異なるが適切な顔反応を表す適切な顔反応分布を学習すること。
(II) 話者の発話行動と非言語行動とを時間スタンプ毎に同期させることにより, 現実的な2次元顔反応系列が得られた。
実験により, 話者の行動から多種多様な, 同期的, 適切な顔反応を生成する方法の有効性が示された。
生成した顔反応の質は、我々の新しい話者-リスナー相互作用モジュールによって達成された話者の音声と表情と密接に結びついている。
私たちのコードは、 \url{https://github.com/lingjivoo/ReactFace}で公開されています。
関連論文リスト
- REACT 2024: the Second Multiple Appropriate Facial Reaction Generation
Challenge [36.84914349494818]
ダイアド的相互作用において、人間は言語的および非言語的手がかりを用いて意図と心の状態を伝える。
複数の適切な、多様性があり、現実的で、同期された人間の顔反応を自動的に生成できる機械学習(ML)モデルの開発は、難しい作業です。
本稿では、REACT 2024チャレンジのガイドラインと、その課題に利用されるデータセットについて述べる。
論文 参考訳(メタデータ) (2024-01-10T14:01:51Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - MRecGen: Multimodal Appropriate Reaction Generator [31.60823534748163]
本稿では,最初のマルチモーダル・マルチモーダル(言語的・非言語的)なヒト反応生成フレームワークを提案する。
これは、適切な仮想エージェント/ロボットの振る舞いを生成することによって、様々な人間とコンピュータの相互作用シナリオに適用することができる。
論文 参考訳(メタデータ) (2023-07-05T19:07:00Z) - Reversible Graph Neural Network-based Reaction Distribution Learning for
Multiple Appropriate Facial Reactions Generation [22.579200870471475]
本稿では,最初の複数顔反応生成フレームワークを提案する。
顔の反応生成問題を1対1のマッピング問題として再定式化する。
実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。
論文 参考訳(メタデータ) (2023-05-24T15:56:26Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Multiple Appropriate Facial Reaction Generation in Dyadic Interaction
Settings: What, Why and How? [11.130984858239412]
本稿では,本論文で初めて,多目的反応生成タスクを定義した。
次に、生成した反応の妥当性を評価するために、新しい客観的評価指標を提案する。
その後、複数の適切な顔反応を予測、生成、評価するための枠組みを紹介した。
論文 参考訳(メタデータ) (2023-02-13T16:49:27Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。