論文の概要: Reversible Graph Neural Network-based Reaction Distribution Learning for
Multiple Appropriate Facial Reactions Generation
- arxiv url: http://arxiv.org/abs/2305.15270v2
- Date: Thu, 25 May 2023 17:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:25:27.961174
- Title: Reversible Graph Neural Network-based Reaction Distribution Learning for
Multiple Appropriate Facial Reactions Generation
- Title(参考訳): 複数の顔反応生成のための可逆的グラフニューラルネットワークによる反応分布学習
- Authors: Tong Xu, Micol Spitale, Hao Tang, Lu Liu, Hatice Gunes, Siyang Song
- Abstract要約: 本稿では,最初の複数顔反応生成フレームワークを提案する。
顔の反応生成問題を1対1のマッピング問題として再定式化する。
実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。
- 参考スコア(独自算出の注目度): 21.805847483466426
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating facial reactions in a human-human dyadic interaction is complex
and highly dependent on the context since more than one facial reactions can be
appropriate for the speaker's behaviour. This has challenged existing machine
learning (ML) methods, whose training strategies enforce models to reproduce a
specific (not multiple) facial reaction from each input speaker behaviour. This
paper proposes the first multiple appropriate facial reaction generation
framework that re-formulates the one-to-many mapping facial reaction generation
problem as a one-to-one mapping problem. This means that we approach this
problem by considering the generation of a distribution of the listener's
appropriate facial reactions instead of multiple different appropriate facial
reactions, i.e., 'many' appropriate facial reaction labels are summarised as
'one' distribution label during training. Our model consists of a perceptual
processor, a cognitive processor, and a motor processor. The motor processor is
implemented with a novel Reversible Multi-dimensional Edge Graph Neural Network
(REGNN). This allows us to obtain a distribution of appropriate real facial
reactions during the training process, enabling the cognitive processor to be
trained to predict the appropriate facial reaction distribution. At the
inference stage, the REGNN decodes an appropriate facial reaction by using this
distribution as input. Experimental results demonstrate that our approach
outperforms existing models in generating more appropriate, realistic, and
synchronized facial reactions. The improved performance is largely attributed
to the proposed appropriate facial reaction distribution learning strategy and
the use of a REGNN. The code is available at
https://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generation.
- Abstract(参考訳): 人間と人間の対話における顔反応の生成は複雑で、複数の顔反応が話者の行動に適しているため、文脈に大きく依存する。
これは既存の機械学習(ML)手法に挑戦し、トレーニング戦略では各入力話者の振る舞いから特定の(複数の)顔反応を再現するモデルを強制する。
本論文では, 顔反応生成問題を1対1マッピング問題として再定式化する, 顔反応生成フレームワークを提案する。
これは,複数の異なる適切な顔反応ではなく,聞き手の適切な顔反応の分布を,訓練中の「1」分布ラベルとして要約することにより,この問題にアプローチすることを意味する。
私たちのモデルは知覚プロセッサ、認知プロセッサ、運動プロセッサで構成されています。
モータプロセッサは、新しい可逆性多次元エッジグラフニューラルネットワーク(regnn)によって実装される。
これにより、トレーニングプロセス中に適切な顔反応の分布を得ることができ、認知プロセッサを訓練して適切な顔反応分布を予測することができる。
推論段階では、REGNNは、この分布を入力として、適切な顔反応を復号する。
実験の結果,提案手法は既存のモデルよりも,より適切で現実的で,同期的な顔反応を生成できることがわかった。
改善された性能は、提案された適切な顔反応分布学習戦略とREGNNの使用に起因する。
コードはhttps://github.com/TongXu-05/REGNN-Multiple-Appropriate-Facial-Reaction-Generationで公開されている。
関連論文リスト
- Multiple Appropriate Facial Reaction Generation in Dyadic Interaction
Settings: What, Why and How? [11.130984858239412]
本稿では,本論文で初めて,多目的反応生成タスクを定義した。
次に、生成した反応の妥当性を評価するために、新しい客観的評価指標を提案する。
その後、複数の適切な顔反応を予測、生成、評価するための枠組みを紹介した。
論文 参考訳(メタデータ) (2023-02-13T16:49:27Z) - Neural-network solutions to stochastic reaction networks [7.021105583098606]
本稿では,化学マスター方程式の解法として,変分自己回帰ネットワークを用いた機械学習手法を提案する。
提案手法は, 種数状態空間における結合確率分布の時間的変化を追跡する。
遺伝的トグルスイッチと初期生命自己複製器において、時間とともに確率分布を正確に生成することを示した。
論文 参考訳(メタデータ) (2022-09-29T07:27:59Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - TANet: A new Paradigm for Global Face Super-resolution via
Transformer-CNN Aggregation Network [72.41798177302175]
本稿では, 顔構造特徴の表現能力を完全に探求する自己認識機構(すなわち Transformer のコア)に基づく新しいパラダイムを提案する。
具体的には、2つの経路からなるTransformer-CNNアグリゲーションネットワーク(TANet)を設計する。
上記の2つの経路から特徴を集約することにより、グローバルな顔の構造の整合性と局所的な顔のディテール復元の忠実度を同時に強化する。
論文 参考訳(メタデータ) (2021-09-16T18:15:07Z) - Learning Facial Representations from the Cycle-consistency of Face [23.23272327438177]
顔特徴の周期一貫性を自由監督信号として導入し、ラベルのない顔画像から顔の表情を学習する。
この学習は、顔の動きサイクルの制約とアイデンティティのサイクルの制約を重畳することによって実現される。
我々のアプローチは既存の手法と競合し、アンタングル表現に埋め込まれたリッチでユニークな情報を実証する。
論文 参考訳(メタデータ) (2021-08-07T11:30:35Z) - Face Images as Jigsaw Puzzles: Compositional Perception of Human Faces
for Machines Using Generative Adversarial Networks [5.3683131602833525]
本稿では,より小さな部品からなる顔画像の分布を生成的敵ネットワークで学習するための新しい手法を提案する。
このモデルでは,部品を組み立てることで,現実的な高品質な顔画像が作成可能であることを実証する。
論文 参考訳(メタデータ) (2021-03-10T20:25:38Z) - Synthetic Expressions are Better Than Real for Learning to Detect Facial
Actions [4.4532095214807965]
提案手法は,各映像フレームから顔の3次元形状を再構成し,その3次元メッシュを標準視に整列し,GANネットワークをトレーニングして,顔のアクションユニットによる新規画像の合成を行う。
このネットワークは、合成された表情を訓練し、実際の表情を訓練し、現在の最先端のアプローチを上回った。
論文 参考訳(メタデータ) (2020-10-21T13:11:45Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。