論文の概要: VAD-Net: Multidimensional Facial Expression Recognition in Intelligent Education System
- arxiv url: http://arxiv.org/abs/2512.06377v1
- Date: Sat, 06 Dec 2025 10:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.330988
- Title: VAD-Net: Multidimensional Facial Expression Recognition in Intelligent Education System
- Title(参考訳): VAD-Net:知的教育システムにおける多次元顔表情認識
- Authors: Yi Huo, Yun Ge,
- Abstract要約: AffectNetはVA(ValenceとArousal)情報を追加しようとしたが、それでもD(Dominance)次元が欠けている。
本研究では、FER2013データセットにVADアノテーションを導入し、D(Dominance)次元をラベル付けする。
実験結果から,D次元は測定可能であるが,V次元とA次元と比較することは困難であった。
新たに構築されたVAD FER2013データセットは、VADの多次元感情を測定するベンチマークとして機能する可能性がある。
- 参考スコア(独自算出の注目度): 1.5576879053213302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current FER (Facial Expression Recognition) dataset is mostly labeled by emotion categories, such as happy, angry, sad, fear, disgust, surprise, and neutral which are limited in expressiveness. However, future affective computing requires more comprehensive and precise emotion metrics which could be measured by VAD(Valence-Arousal-Dominance) multidimension parameters. To address this, AffectNet has tried to add VA (Valence and Arousal) information, but still lacks D(Dominance). Thus, the research introduces VAD annotation on FER2013 dataset, takes the initiative to label D(Dominance) dimension. Then, to further improve network capacity, it enforces orthogonalized convolution on it, which extracts more diverse and expressive features and will finally increase the prediction accuracy. Experiment results show that D dimension could be measured but is difficult to obtain compared with V and A dimension no matter in manual annotation or regression network prediction. Secondly, the ablation test by introducing orthogonal convolution verifies that better VAD prediction could be obtained in the configuration of orthogonal convolution. Therefore, the research provides an initiative labelling for D dimension on FER dataset, and proposes a better prediction network for VAD prediction through orthogonal convolution. The newly built VAD annotated FER2013 dataset could act as a benchmark to measure VAD multidimensional emotions, while the orthogonalized regression network based on ResNet could act as the facial expression recognition baseline for VAD emotion prediction. The newly labeled dataset and implementation code is publicly available on https://github.com/YeeHoran/VAD-Net .
- Abstract(参考訳): 現在のFER(Facial Expression Recognition)データセットは、幸せ、怒り、悲しみ、恐怖、嫌悪、驚き、中立といった感情カテゴリーによってラベル付けされており、表現力に制限がある。
しかし、将来の感情コンピューティングには、VAD(Valence-Arousal-Dominance)多重次元パラメータで測定できる、より包括的で正確な感情メトリクスが必要である。
これを解決するため、AffectNetはVA(ValenceとArousal)情報を追加しようとしたが、それでもD(Dominance)を欠いている。
このように、この研究はFER2013データセットにVADアノテーションを導入し、D(Dominance)次元のラベル付けに取り組みます。
そして、ネットワーク容量をさらに向上するために、直交した畳み込みを強制し、より多様な表現的特徴を抽出し、最終的に予測精度を向上する。
実験結果から,手動のアノテーションや回帰ネットワークの予測において,D次元は測定可能であるが,V次元やA次元と比較することは困難であることがわかった。
第二に、直交畳み込みの導入によるアブレーション試験により、直交畳み込みの設定において、より良いVOD予測が得られることが確かめられる。
そこで本研究では,FERデータセット上でのD次元のラベル付けを行い,直交畳み込みによるVAD予測のためのより良い予測ネットワークを提案する。
新たに構築されたVAD注釈付きFER2013データセットは、VADの多次元感情を測定するためのベンチマークとして機能し、ResNetに基づく直交回帰ネットワークは、VADの感情予測のための表情認識ベースラインとして機能する。
新たにラベル付けされたデータセットと実装コードはhttps://github.com/YeeHoran/VAD-Netで公開されている。
関連論文リスト
- ARD-VAE: A Statistical Formulation to Find the Relevant Latent Dimensions of Variational Autoencoders [0.5759862457142761]
本稿では,データセットのモデル化に必要な潜在因子を統計的に定式化する。
我々は、変分オートエンコーダ(ARD-VAE)における自動関連性検出手法を提案手法と呼ぶ。
論文 参考訳(メタデータ) (2025-01-18T23:27:05Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - DejaVu: Conditional Regenerative Learning to Enhance Dense Prediction [45.89461725594674]
我々は,高密度予測タスクの深部ネットワーク改善のために,条件付き画像再生をトレーニング中に追加の監督として利用する。
DejaVuは、高密度予測ネットワークに注目ベースの再生モジュールを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2023-03-02T20:56:36Z) - VA-DepthNet: A Variational Approach to Single Image Depth Prediction [163.14849753700682]
VA-DepthNetは、単一画像深度予測問題に対する単純で効果的で正確なディープニューラルネットワークアプローチである。
本論文は,複数のベンチマークデータセットに対する広範囲な評価とアブレーション解析により提案手法の有用性を実証する。
論文 参考訳(メタデータ) (2023-02-13T17:55:58Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - It's LeVAsa not LevioSA! Latent Encodings for Valence-Arousal Structure
Alignment [3.6513059119482154]
本稿では、潜在空間とVA空間を整列させることにより暗黙構造を学習するVAEモデル「LeVAsa」を提案する。
以上の結果から,LeVAsaは低周波アライメントを実現し,下流のカテゴリー感情予測の改善につながることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-20T12:52:26Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。