論文の概要: HadaSmileNet: Hadamard fusion of handcrafted and deep-learning features for enhancing facial emotion recognition of genuine smiles
- arxiv url: http://arxiv.org/abs/2509.18550v1
- Date: Tue, 23 Sep 2025 02:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.651044
- Title: HadaSmileNet: Hadamard fusion of handcrafted and deep-learning features for enhancing facial emotion recognition of genuine smiles
- Title(参考訳): HadaSmileNet:本物の笑顔の表情認識を強化する手作り・深層学習機能の融合
- Authors: Mohammad Junayed Hasan, Nabeel Mohammed, Shafin Rahman, Philipp Koehn,
- Abstract要約: 真の感情とポーズされた感情の区別は、基本的なパターン認識の課題である。
HadaSmileNetは、トランスフォーマーベースの表現と生理的基盤を持つD-Markersを直接統合する、新しい機能融合フレームワークである。
このフレームワークの効率性と有効性は、特にマルチメディアデータマイニングアプリケーションにおける実践的なデプロイに適している。
- 参考スコア(独自算出の注目度): 16.29396284428089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The distinction between genuine and posed emotions represents a fundamental pattern recognition challenge with significant implications for data mining applications in social sciences, healthcare, and human-computer interaction. While recent multi-task learning frameworks have shown promise in combining deep learning architectures with handcrafted D-Marker features for smile facial emotion recognition, these approaches exhibit computational inefficiencies due to auxiliary task supervision and complex loss balancing requirements. This paper introduces HadaSmileNet, a novel feature fusion framework that directly integrates transformer-based representations with physiologically grounded D-Markers through parameter-free multiplicative interactions. Through systematic evaluation of 15 fusion strategies, we demonstrate that Hadamard multiplicative fusion achieves optimal performance by enabling direct feature interactions while maintaining computational efficiency. The proposed approach establishes new state-of-the-art results for deep learning methods across four benchmark datasets: UvA-NEMO (88.7 percent, +0.8), MMI (99.7 percent), SPOS (98.5 percent, +0.7), and BBC (100 percent, +5.0). Comprehensive computational analysis reveals 26 percent parameter reduction and simplified training compared to multi-task alternatives, while feature visualization demonstrates enhanced discriminative power through direct domain knowledge integration. The framework's efficiency and effectiveness make it particularly suitable for practical deployment in multimedia data mining applications that require real-time affective computing capabilities.
- Abstract(参考訳): 真の感情と仮定された感情の区別は、社会科学、医療、人間とコンピュータの相互作用におけるデータマイニングの応用に重要な意味を持つ、基本的なパターン認識の課題である。
最近のマルチタスク学習フレームワークは、深層学習アーキテクチャと手作りのD-Marker機能を組み合わせることで、笑顔の表情認識を実現している。
本稿では,パラメータフリーな乗法的相互作用を通じて,トランスフォーマーに基づく表現と生理的基底を持つD-マーカーを直接統合する新しい特徴融合フレームワークであるHadaSmileNetを紹介する。
15の融合戦略を体系的に評価することにより,計算効率を保ちながら直接的特徴相互作用を実現することにより,アダマール乗算核融合が最適な性能を発揮することを示す。
提案手法は,UvA-NEMO (88.7%), +0.8), MMI (99.7%), SPOS (98.5%, +0.7), BBC (100パーセント, +5.0) の4つのベンチマークデータセットを対象とした,ディープラーニング手法の新たな最先端結果を確立する。
包括的計算分析では、マルチタスクの代替に比べてパラメータ削減と簡易化の26%が示され、機能可視化はドメイン知識の直接統合による識別力の向上を実証している。
このフレームワークの効率性と有効性は、リアルタイムな感情的コンピューティング能力を必要とするマルチメディアデータマイニングアプリケーションにおける実践的なデプロイに特に適している。
関連論文リスト
- Focus Through Motion: RGB-Event Collaborative Token Sparsification for Efficient Object Detection [56.88160531995454]
既存のRGBイベント検出手法は、特徴抽出と融合の間、両方のモダリティの低情報領域を均一に処理する。
マルチモーダル特徴の適応的コラボレーティブスカラー化を行うFocusMambaを提案する。
DSEC-Det と PKU-DAVIS-SOD データセットを用いた実験により,提案手法は精度と効率の両方において優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2025-09-04T04:18:46Z) - Toward Efficient Speech Emotion Recognition via Spectral Learning and Attention [0.5371337604556311]
音声感情認識(SER)は、伝統的に感情分類のための聴覚データ分析に依存している。
我々は,Mel-Frequency Cepstral Coefficients (MFCCs) をスペクトル特性として用いて,計算的感情処理と人間の聴覚知覚のギャップを埋める。
データ拡張技術を統合する新しい1D-CNNベースのSERフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T01:55:49Z) - Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition [16.616341358877243]
本研究は,表情解析と脳波信号の統合による感情認識の課題に対処する。
提案するフレームワークは、視覚的および生理的モダリティを効果的に統合するために、トランスフォーマーベースの融合アプローチを採用している。
この研究の重要な革新は、複数の表情画像から意味のある情報を抽出する多重インスタンス学習(MIL)アプローチの採用である。
論文 参考訳(メタデータ) (2025-02-01T20:32:57Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。