論文の概要: Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization
- arxiv url: http://arxiv.org/abs/2507.15765v2
- Date: Sat, 26 Jul 2025 14:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 12:09:50.602923
- Title: Learning from Heterogeneity: Generalizing Dynamic Facial Expression Recognition via Distributionally Robust Optimization
- Title(参考訳): 不均一性からの学習:分散ロバスト最適化による動的顔表情認識の一般化
- Authors: Feng-Qi Cui, Anyang Tong, Jinyang Huang, Jie Zhang, Dan Guo, Zhi Liu, Meng Wang,
- Abstract要約: Heterogeneity-Aware Distributional Framework (HDF) は、時間周波数モデリングを強化し、ハードサンプルによる不均衡を軽減するために設計された。
時間周波数分散アテンションモジュール(DAM)は、時間的一貫性と周波数ロバスト性の両方をキャプチャする。
適応最適化モジュール 分散対応スケーリングモジュール (DSM) は、動的に分類と対照的な損失のバランスをとるために導入された。
- 参考スコア(独自算出の注目度): 23.328511708942045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic Facial Expression Recognition (DFER) plays a critical role in affective computing and human-computer interaction. Although existing methods achieve comparable performance, they inevitably suffer from performance degradation under sample heterogeneity caused by multi-source data and individual expression variability. To address these challenges, we propose a novel framework, called Heterogeneity-aware Distributional Framework (HDF), and design two plug-and-play modules to enhance time-frequency modeling and mitigate optimization imbalance caused by hard samples. Specifically, the Time-Frequency Distributional Attention Module (DAM) captures both temporal consistency and frequency robustness through a dual-branch attention design, improving tolerance to sequence inconsistency and visual style shifts. Then, based on gradient sensitivity and information bottleneck principles, an adaptive optimization module Distribution-aware Scaling Module (DSM) is introduced to dynamically balance classification and contrastive losses, enabling more stable and discriminative representation learning. Extensive experiments on two widely used datasets, DFEW and FERV39k, demonstrate that HDF significantly improves both recognition accuracy and robustness. Our method achieves superior weighted average recall (WAR) and unweighted average recall (UAR) while maintaining strong generalization across diverse and imbalanced scenarios. Codes are released at https://github.com/QIcita/HDF_DFER.
- Abstract(参考訳): 動的表情認識(DFER)は、感情コンピューティングと人間とコンピュータの相互作用において重要な役割を果たす。
既存の手法は同等のパフォーマンスを実現するが、多ソースデータによるサンプルの不均一性と個々の表現のばらつきによって必然的に性能劣化に悩まされる。
これらの課題に対処するため、我々はHeterogeneity-aware Distributional Framework (HDF)と呼ばれる新しいフレームワークを提案し、2つのプラグイン・アンド・プレイモジュールを設計し、時間周波数モデリングを強化し、ハードサンプルによる最適化の不均衡を軽減する。
具体的には、DAM(Time-Frequency Distributional Attention Module)は、二重ブランチアテンション設計により、時間的一貫性と周波数ロバスト性の両方をキャプチャし、シーケンス不整合への耐性と視覚スタイルシフトを改善する。
そして、勾配感度と情報ボトルネックの原理に基づいて、動的に分類と対照的な損失のバランスをとるために適応最適化モジュール分散対応スケーリングモジュール(DSM)を導入し、より安定的で差別的な表現学習を可能にした。
DFEWとFERV39kという2つの広く使われているデータセットに対する大規模な実験は、HDFが認識精度と堅牢性の両方を大幅に改善することを示した。
本手法は,多様かつ不均衡なシナリオにまたがる強力な一般化を維持しつつ,より優れた重み付き平均リコール(WAR)と非重み付き平均リコール(UAR)を実現する。
コードはhttps://github.com/QIcita/HDF_DFERで公開されている。
関連論文リスト
- Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Dual-Expert Consistency Model for Efficient and High-Quality Video Generation [57.33788820909211]
本稿では,パラメータ効率の高いtextbfDual-Expert Consistency Model (DCM) を提案する。
提案手法は, ビデオ拡散モデル蒸留における専門的専門化の有効性を実証し, サンプリング工程を大幅に短縮して, 最先端の視覚品質を実現する。
論文 参考訳(メタデータ) (2025-06-03T17:55:04Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - PiRD: Physics-informed Residual Diffusion for Flow Field Reconstruction [5.06136344261226]
データ忠実度向上のためのCNNベースの手法は、トレーニング期間中の低忠実度データパターンと分布に依存している。
提案したモデルである物理インフォームド残差拡散(Residual Diffusion)は、標準の低忠実度入力からデータの品質を高める能力を示す。
実験結果から, 2次元乱流に対して, 再学習を必要とせず, 高品質な流れを効果的に再現できることが示唆された。
論文 参考訳(メタデータ) (2024-04-12T11:45:51Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。