論文の概要: Variational Encoder--Multi-Decoder (VE-MD) for Privacy-by-functional-design (Group) Emotion Recognition
- arxiv url: http://arxiv.org/abs/2604.02397v1
- Date: Thu, 02 Apr 2026 13:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.142213
- Title: Variational Encoder--Multi-Decoder (VE-MD) for Privacy-by-functional-design (Group) Emotion Recognition
- Title(参考訳): プライバシ・バイ・ファンクショナル・デザイン(グループ)感情認識のための変分エンコーダ-マルチ・デコーダ(VE-MD)
- Authors: Anderson Augusma, Dominique Vaufreydaz, Fédérique Letué,
- Abstract要約: 本研究では,プライバシを意識した機能設計に基づくグループ感情認識のための変分型マルチデコーダフレームワークVE-MDを提案する。
VE-MDは、正式な匿名化や暗号化プライバシ保証を提供するのではなく、明示的な個人監視を避けるように設計されている。
VE-MDは、感情分類と身体と顔の構造的表現の内部予測に最適化された共有潜在表現を学習する。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Emotion Recognition (GER) aims to infer collective affect in social environments such as classrooms, crowds, and public events. Many existing approaches rely on explicit individual-level processing, including cropped faces, person tracking, or per-person feature extraction, which makes the analysis pipeline person-centric and raises privacy concerns in deployment scenarios where only group-level understanding is needed. This research proposes VE-MD, a Variational Encoder-Multi-Decoder framework for group emotion recognition under a privacy-aware functional design. Rather than providing formal anonymization or cryptographic privacy guarantees, VE-MD is designed to avoid explicit individual monitoring by constraining the model to predict only aggregate group-level affect, without identity recognition or per-person emotion outputs. VE-MD learns a shared latent representation jointly optimized for emotion classification and internal prediction of body and facial structural representations. Two structural decoding strategies are investigated: a transformer-based PersonQuery decoder and a dense Heatmap decoder that naturally accommodates variable group sizes. Experiments on six in-the-wild datasets, including two GER and four Individual Emotion Recognition (IER) benchmarks, show that structural supervision consistently improves representation learning. More importantly, the results reveal a clear distinction between GER and IER: optimizing the latent space alone is often insufficient for GER because it tends to attenuate interaction-related cues, whereas preserving explicit structural outputs improves collective affect inference. In contrast, projected structural representations seem to act as an effective denoising bottleneck for IER. VE-MD achieves state-of-the-art performance on GAF-3.0 (up to 90.06%) and VGAF (82.25% with multimodal fusion with audio). These results show that preserving interaction-related structural information is particularly beneficial for group-level affect modeling without relying on prior individual feature extraction. On IER datasets using multimodal fusion with audio modality, VE-MD outperforms SOTA on SamSemo (77.9%, adding text modality) while achieving competitive performances on MER-MULTI (63.8%), DFEW (70.7%) and EngageNet (69.0).
- Abstract(参考訳): グループ感情認識(GER)は、教室、群衆、公共イベントなどの社会環境における集団的影響を推測することを目的としている。
多くの既存アプローチでは、分析パイプラインを個人中心にし、グループレベルの理解が必要なデプロイメントシナリオでプライバシ上の懸念を提起する、トリミングされた顔、人物追跡、個人毎の機能抽出など、明示的な個別レベルの処理に依存している。
本研究では,プライバシーに配慮した機能設計の下で,グループ感情認識のための変分エンコーダ・マルチ・デコーダ・フレームワークであるVE-MDを提案する。
VE-MDは、正式な匿名化や暗号化プライバシ保証を提供する代わりに、個人毎の感情出力やアイデンティティ認識なしに、グループレベルの影響のみを予測するようにモデルを拘束することで、明示的な個人監視を避けるように設計されている。
VE-MDは、感情分類と身体と顔の構造的表現の内部予測に最適化された共有潜在表現を学習する。
変換器をベースとしたPersonQueryデコーダと,可変グループサイズを自然に許容するHeatmapデコーダの2つの構造的デコーダについて検討した。
2つのGERと4つの個人感情認識(IER)ベンチマークを含む6つのアプリ内データセットの実験は、構造的監督が表現学習を一貫して改善していることを示している。
さらに重要なことは、GERとIERの明確な区別が明らかである: 遅延空間のみの最適化は、相互作用に関連するキューを減衰させる傾向があるため、GERにとってしばしば不十分であり、一方、明示的な構造的アウトプットの保存は、集団的影響推論を改善する。
対照的に、投影された構造表現は、IERの効果的な分極ボトルネックとして機能しているように見える。
VE-MDはGAF-3.0(最大90.06%)とVGAF(オーディオとのマルチモーダル融合による82.25%)で最先端のパフォーマンスを実現している。
これらの結果から, 相互作用関連構造情報の保存は, 先行した特徴抽出に頼ることなく, グループレベルの影響モデリングに特に有用であることが示唆された。
マルチモーダル融合とオーディオモダリティを用いたIERデータセットでは、VE-MDはSamSemo(77.9%、テキストモダリティの追加)でSOTAを上回り、MER-MULTI(63.8%)、DFEW(70.7%)、EngageNet(69.0)で競合性能を達成した。
関連論文リスト
- Brainprint-Modulated Target Speaker Extraction [1.6974371408199849]
パーソナライズされた高忠実度抽出のための新しいフレームワークであるBrainprint-ulated Speaker extract (BM-TSE)を提案する。
私たちのフレームワークの中核はパーソナライズされた変調機構であり、脳マップの埋め込みが学習される。
BM-TSEは最先端の性能を達成し、既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-09-22T15:17:35Z) - CoBEVMoE: Heterogeneity-aware Feature Fusion with Dynamic Mixture-of-Experts for Collaborative Perception [21.27356211403264]
本稿では,バードアイビュー(Bird's Eye View, BEV)空間で動作する新しい協調認識フレームワークを提案する。
エキスパート間の多様性を高め、融合表現の識別性を向上させるために、ダイナミックエキスパートメトリックロス(DEML)を導入する。
論文 参考訳(メタデータ) (2025-09-21T14:56:05Z) - CRIA: A Cross-View Interaction and Instance-Adapted Pre-training Framework for Generalizable EEG Representations [52.251569042852815]
CRIAは、可変長および可変チャネルコーディングを使用して、異なるデータセット間でEEGデータの統一表現を実現する適応フレームワークである。
このモデルでは、時間的、スペクトル的、空間的特徴を効果的に融合させるクロスアテンション機構を採用している。
テンプル大学脳波コーパスとCHB-MITデータセットによる実験結果から、CRIAは既存の方法よりも、同じ事前学習条件で優れていることが示された。
論文 参考訳(メタデータ) (2025-06-19T06:31:08Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Adversarial Deep Feature Extraction Network for User Independent Human
Activity Recognition [4.988898367111902]
本稿では,人間行動認識のための最大平均不一致(MMD)正則化を用いた対向的対象非依存特徴抽出法を提案する。
本手法は,ユーザに依存しない性能を著しく向上し,結果のばらつきを低減できることを示す,よく知られた公開データセット上での評価を行う。
論文 参考訳(メタデータ) (2021-10-23T07:50:32Z) - DexDeepFM: Ensemble Diversity Enhanced Extreme Deep Factorization
Machine Model [8.73107818888638]
アンサンブルの多様性を高めた極深部分解機モデル(DexDeepFM)を提案する。
2つの公開現実世界のデータセットに関する実験は、提案されたモデルの優位性を示している。
論文 参考訳(メタデータ) (2021-04-05T14:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。