Fugu-MT 論文翻訳(概要): Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation

論文の概要: Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation

arxiv url: http://arxiv.org/abs/2305.15270v2
Date: Thu, 25 May 2023 17:41:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 10:25:27.961174
Title: Reversible Graph Neural Network-based Reaction Distribution Learning for Multiple Appropriate Facial Reactions Generation
Title（参考訳）: 複数の顔反応生成のための可逆的グラフニューラルネットワークによる反応分布学習
Authors: Tong Xu, Micol Spitale, Hao Tang, Lu Liu, Hatice Gunes, Siyang Song
Abstract要約: 本稿では,最初の複数顔反応生成フレームワークを提案する。顔の反応生成問題を1対1のマッピング問題として再定式化する。実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。
参考スコア（独自算出の注目度）: 21.805847483466426
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Generating facial reactions in a human-human dyadic interaction is complex and highly dependent on the context since more than one facial reactions can be appropriate for the speaker's behaviour. This has challenged existing machine learning (ML) methods, whose training strategies enforce models to reproduce a specific (not multiple) facial reaction from each input speaker behaviour. This paper proposes the first multiple appropriate facial reaction generation framework that re-formulates the one-to-many mapping facial reaction generation problem as a one-to-one mapping problem. This means that we approach this problem by considering the generation of a distribution of the listener's appropriate facial reactions instead of multiple different appropriate facial reactions, i.e., 'many' appropriate facial reaction labels are summarised as 'one' distribution label during training. Our model consists of a perceptual processor, a cognitive processor, and a motor processor. The motor processor is implemented with a novel Reversible Multi-dimensional Edge Graph Neural Network (REGNN). This allows us to obtain a distribution of appropriate real facial reactions during the training process, enabling the cognitive processor to be trained to predict the appropriate facial reaction distribution. At the inference stage, the REGNN decodes an appropriate facial reaction by using this distribution as input. Experimental results demonstrate that our approach outperforms existing models in generating more appropriate, realistic, and synchronized facial reactions. The improved performance is largely attributed to the proposed appropriate facial reaction distribution learning strategy and the use of a REGNN. The code is available at https://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generation.
Abstract（参考訳）: 人間と人間の対話における顔反応の生成は複雑で、複数の顔反応が話者の行動に適しているため、文脈に大きく依存する。これは既存の機械学習(ML)手法に挑戦し、トレーニング戦略では各入力話者の振る舞いから特定の(複数の)顔反応を再現するモデルを強制する。本論文では, 顔反応生成問題を1対1マッピング問題として再定式化する, 顔反応生成フレームワークを提案する。これは,複数の異なる適切な顔反応ではなく,聞き手の適切な顔反応の分布を,訓練中の「1」分布ラベルとして要約することにより,この問題にアプローチすることを意味する。私たちのモデルは知覚プロセッサ、認知プロセッサ、運動プロセッサで構成されています。モータプロセッサは、新しい可逆性多次元エッジグラフニューラルネットワーク(regnn)によって実装される。これにより、トレーニングプロセス中に適切な顔反応の分布を得ることができ、認知プロセッサを訓練して適切な顔反応分布を予測することができる。推論段階では、REGNNは、この分布を入力として、適切な顔反応を復号する。実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。改善された性能は、提案された適切な顔反応分布学習戦略とREGNNの使用に起因する。コードはhttps://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generationで公開されている。

関連論文リスト

ReactDiff: Latent Diffusion for Facial Reaction Generation [15.490774894749277]
話者の音声・視覚的クリップを考えると、顔反応生成はリスナーの顔反応を予測することを目的としている。本稿では,多モード変換器と条件拡散を統合した顔反応拡散(ReactDiff)フレームワークを提案する。実験の結果、ReactDiffは既存のアプローチよりも大幅に優れており、顔反応の相関は0.26、多様性のスコアは0.094である。
論文参考訳（メタデータ） (2025-05-20T10:01:37Z)
REACT 2024: the Second Multiple Appropriate Facial Reaction Generation Challenge [36.84914349494818]
ダイアド的相互作用において、人間は言語的および非言語的手がかりを用いて意図と心の状態を伝える。複数の適切な、多様性があり、現実的で、同期された人間の顔反応を自動的に生成できる機械学習(ML)モデルの開発は、難しい作業です。本稿では、REACT 2024チャレンジのガイドラインと、その課題に利用されるデータセットについて述べる。
論文参考訳（メタデータ） (2024-01-10T14:01:51Z)
MRecGen: Multimodal Appropriate Reaction Generator [31.60823534748163]
本稿では,最初のマルチモーダル・マルチモーダル(言語的・非言語的)なヒト反応生成フレームワークを提案する。これは、適切な仮想エージェント/ロボットの振る舞いを生成することによって、様々な人間とコンピュータの相互作用シナリオに適用することができる。
論文参考訳（メタデータ） (2023-07-05T19:07:00Z)
ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions [46.66378299720377]
ダイアドインタラクションでは、聴取者の顔反応を予測することは困難であり、同じ話者の振る舞いに応じて異なる反応が適している可能性がある。本稿では,外挿や予測問題としてタスクを再構築し,複数の異なる顔反応を生成する新しいフレームワーク(ReactFace)を提案する。
論文参考訳（メタデータ） (2023-05-25T05:55:53Z)
Multiple Appropriate Facial Reaction Generation in Dyadic Interaction Settings: What, Why and How? [11.130984858239412]
本稿では,本論文で初めて,多目的反応生成タスクを定義した。次に、生成した反応の妥当性を評価するために、新しい客観的評価指標を提案する。その後、複数の適切な顔反応を予測、生成、評価するための枠組みを紹介した。
論文参考訳（メタデータ） (2023-02-13T16:49:27Z)
Decoupled Multi-task Learning with Cyclical Self-Regulation for Face Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-28T02:12:30Z)
TANet: A new Paradigm for Global Face Super-resolution via Transformer-CNN Aggregation Network [72.41798177302175]
本稿では, 顔構造特徴の表現能力を完全に探求する自己認識機構(すなわち Transformer のコア)に基づく新しいパラダイムを提案する。具体的には、2つの経路からなるTransformer-CNNアグリゲーションネットワーク(TANet)を設計する。上記の2つの経路から特徴を集約することにより、グローバルな顔の構造の整合性と局所的な顔のディテール復元の忠実度を同時に強化する。
論文参考訳（メタデータ） (2021-09-16T18:15:07Z)
Synthetic Expressions are Better Than Real for Learning to Detect Facial Actions [4.4532095214807965]
提案手法は,各映像フレームから顔の3次元形状を再構成し,その3次元メッシュを標準視に整列し,GANネットワークをトレーニングして,顔のアクションユニットによる新規画像の合成を行う。このネットワークは、合成された表情を訓練し、実際の表情を訓練し、現在の最先端のアプローチを上回った。
論文参考訳（メタデータ） (2020-10-21T13:11:45Z)
Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文参考訳（メタデータ） (2020-10-19T20:39:37Z)
InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文参考訳（メタデータ） (2020-05-18T18:01:22Z)
Learning to Augment Expressions for Few-shot Fine-grained Facial Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。顔の表情は119人から54人まで、200万枚以上の画像が含まれている。実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文参考訳（メタデータ） (2020-01-17T03:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。