論文の概要: MICACL: Multi-Instance Category-Aware Contrastive Learning for Long-Tailed Dynamic Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2509.04344v1
- Date: Thu, 04 Sep 2025 16:03:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.214728
- Title: MICACL: Multi-Instance Category-Aware Contrastive Learning for Long-Tailed Dynamic Facial Expression Recognition
- Title(参考訳): MICACL:長距離動的顔表情認識のためのマルチインスタンスカテゴリー対応コントラスト学習
- Authors: Feng-Qi Cui, Zhen Lin, Xinlong Rao, Anyang Tong, Shiyao Li, Fei Wang, Changlin Chen, Bin Liu,
- Abstract要約: 動的マルチスケールカテゴリー対応コントラスト学習(LMCC)と呼ばれる新しいマルチインスタンスモデル学習フレームワークを提案する。
LMCC メジャーとマイナーのバランストレーニング。
フィールド内データセットの実験により、MICは優れた顔と一般化で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 12.538204312275935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic facial expression recognition (DFER) faces significant challenges due to long-tailed category distributions and complexity of spatio-temporal feature modeling. While existing deep learning-based methods have improved DFER performance, they often fail to address these issues, resulting in severe model induction bias. To overcome these limitations, we propose a novel multi-instance learning framework called MICACL, which integrates spatio-temporal dependency modeling and long-tailed contrastive learning optimization. Specifically, we design the Graph-Enhanced Instance Interaction Module (GEIIM) to capture intricate spatio-temporal between adjacent instances relationships through adaptive adjacency matrices and multiscale convolutions. To enhance instance-level feature aggregation, we develop the Weighted Instance Aggregation Network (WIAN), which dynamically assigns weights based on instance importance. Furthermore, we introduce a Multiscale Category-aware Contrastive Learning (MCCL) strategy to balance training between major and minor categories. Extensive experiments on in-the-wild datasets (i.e., DFEW and FERV39k) demonstrate that MICACL achieves state-of-the-art performance with superior robustness and generalization.
- Abstract(参考訳): 動的表情認識(DFER)は、長期的カテゴリー分布と時空間的特徴モデリングの複雑さにより大きな課題に直面している。
既存のディープラーニングベースの手法では、DFERのパフォーマンスが向上しているが、これらの問題に対処できない場合が多いため、モデル帰納バイアスが厳しくなる。
これらの制約を克服するために,時空間依存モデリングと長い尾を持つコントラスト学習最適化を統合したMICACLという新しいマルチインスタンス学習フレームワークを提案する。
具体的には,グラフ強化インスタンス相互作用モジュール (GEIIM) を設計し,適応的隣接行列とマルチスケール畳み込みにより,隣接インスタンス間の複雑な時空間をキャプチャする。
インスタンスレベルの特徴集約を強化するために,インスタンスの重要度に基づいて動的に重みを割り当てるWeighted Instance Aggregation Network (WIAN)を開発した。
さらに,大規模カテゴリを意識したコントラスト学習(MCCL)戦略を導入し,主要なカテゴリとマイナーカテゴリのトレーニングのバランスをとる。
組込みデータセット(DFEWとFERV39k)の大規模な実験は、MICACLがより堅牢性と一般化の優れた最先端性能を達成することを実証している。
関連論文リスト
- Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - DMSC: Dynamic Multi-Scale Coordination Framework for Time Series Forecasting [14.176801586961286]
時系列予測(TSF)は、さまざまなスケールにわたる複雑な時間的依存関係をモデル化する上で、永続的な課題に直面します。
マルチスケールパッチ分解ブロック(EMPD)、トライアドインタラクションブロック(TIB)、適応スケールルーティングMoEブロック(ASR-MoE)を備えた新しい動的マルチスケールコーディネーションフレームワーク(DMSC)を提案する。
EMPDは、指数関数的にスケールした粒度を持つ階層的なパッチにシーケンスを動的に分割する組み込みコンポーネントとして設計されている。
TIBは、各レイヤの分解された表現の中で、パッチ内、パッチ間、およびクロス変数の依存関係を共同でモデル化する。
論文 参考訳(メタデータ) (2025-08-03T13:11:52Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Dynamic Feature Learning and Matching for Class-Incremental Learning [20.432575325147894]
CIL(Class-incremental Learning)は,従来のクラスを破滅的に忘れることなく,新しいクラスを学習する方法として登場した。
本稿では,動的特徴学習とマッチング(DFLM)モデルを提案する。
提案手法は既存手法に比べて大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-05-14T12:17:19Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。