論文の概要: ARPGNet: Appearance- and Relation-aware Parallel Graph Attention Fusion Network for Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2511.22188v1
- Date: Thu, 27 Nov 2025 07:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.449494
- Title: ARPGNet: Appearance- and Relation-aware Parallel Graph Attention Fusion Network for Facial Expression Recognition
- Title(参考訳): ARPGNet:顔表情認識のための出現・関係認識型並列グラフ注意融合ネットワーク
- Authors: Yan Li, Yong Zhao, Xiaohan Xia, Dongmei Jiang,
- Abstract要約: 本稿では,外見と関係情報の空間的・時間的表現を相互に拡張したARPGNetを学習するために,ARPGNet(Aearance- and Relation-aware Parallel Graph attention fusion Network)を提案する。
具体的には、顔領域間の関係をモデル化するために、顔領域関係グラフを構築し、グラフ注意機構を活用する。
結果として得られたリレーショナル表現シーケンスとCNNベースの外観表現シーケンスは、相互の相互作用と拡張のために並列グラフ注意融合モジュールに供給される。
- 参考スコア(独自算出の注目度): 17.573536098485274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key to facial expression recognition is to learn discriminative spatial-temporal representations that embed facial expression dynamics. Previous studies predominantly rely on pre-trained Convolutional Neural Networks (CNNs) to learn facial appearance representations, overlooking the relationships between facial regions. To address this issue, this paper presents an Appearance- and Relation-aware Parallel Graph attention fusion Network (ARPGNet) to learn mutually enhanced spatial-temporal representations of appearance and relation information. Specifically, we construct a facial region relation graph and leverage the graph attention mechanism to model the relationships between facial regions. The resulting relational representation sequences, along with CNN-based appearance representation sequences, are then fed into a parallel graph attention fusion module for mutual interaction and enhancement. This module simultaneously explores the complementarity between different representation sequences and the temporal dynamics within each sequence. Experimental results on three facial expression recognition datasets demonstrate that the proposed ARPGNet outperforms or is comparable to state-of-the-art methods.
- Abstract(参考訳): 表情認識の鍵は、表情力学を組み込んだ識別的空間時間表現を学習することである。
以前の研究では、主に、顔領域間の関係を見越して顔の外観表現を学ぶために、訓練済みの畳み込みニューラルネットワーク(CNN)に依存していた。
そこで,本稿では,外観と関係情報の空間的・時間的表現を相互に拡張したARPGNetを用いて学習する。
具体的には、顔領域間の関係をモデル化するために、顔領域関係グラフを構築し、グラフ注意機構を活用する。
結果として得られたリレーショナル表現シーケンスとCNNベースの外観表現シーケンスは、相互の相互作用と拡張のために並列グラフ注意融合モジュールに供給される。
このモジュールは、異なる表現列と各シーケンス内の時間的ダイナミクスの相補性を同時に探索する。
3つの表情認識データセットの実験結果から、提案したARPGNetは、最先端の手法よりも優れているか、あるいは同等であることが示された。
関連論文リスト
- Computer Vision based group activity detection and action spotting [0.0]
多人数シーンにおけるグループ活動の検出は、複雑な人間との相互作用と時間的変化により困難である。
本研究では、ディープラーニングモデルとグラフベースの関係推論を組み合わせたグループ活動認識とアクションスポッティングのためのコンピュータビジョンベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:52:22Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Spatio-Temporal AU Relational Graph Representation Learning For Facial
Action Units Detection [30.480103923317536]
私たちのアプローチは3つの主要なモジュールで構成されています。
グラフ表現は、すべてのフレームに含まれるAUを記述する。
私たちのモデルは、第5回ABAWコンペティションのAU認識トラックで4位にランクインしています。
論文 参考訳(メタデータ) (2023-03-19T12:28:59Z) - Self-Supervised Relation Alignment for Scene Graph Generation [44.3983804479146]
シーングラフ生成性能を改善するために,自己教師付きリレーショナルアライメントの正規化を導入する。
提案されたアライメントは一般的なもので、既存のシーングラフ生成フレームワークと組み合わせることができる。
本稿では,この自己教師付きリレーショナルアライメントと2つのシーングラフ生成アーキテクチャの有効性について述べる。
論文 参考訳(メタデータ) (2023-02-02T20:34:13Z) - Biphasic Face Photo-Sketch Synthesis via Semantic-Driven Generative
Adversarial Network with Graph Representation Learning [40.544844623958426]
本稿では,これらの問題に対処するためのセマンティック・ドリブン・ジェネレーティブ・アドバイザリ・ネットワークを提案する。
人間の顔が異なる空間構造を持つことを考慮し、まず、生成元にクラスワイドなセマンティックレイアウトを注入する。
IntrA-class Semantic Graph (IASG) とInteR-class Structure Graph (IRSG) という2種類の表現グラフを構築した。
論文 参考訳(メタデータ) (2022-01-05T13:14:14Z) - Exploiting Emotional Dependencies with Graph Convolutional Networks for
Facial Expression Recognition [31.40575057347465]
本稿では,視覚における表情認識のためのマルチタスク学習フレームワークを提案する。
MTL設定において、離散認識と連続認識の両方のために共有特徴表現が学習される。
実験の結果,本手法は離散FER上での最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T10:20:05Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。