論文の概要: Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities
- arxiv url: http://arxiv.org/abs/2508.06800v2
- Date: Thu, 14 Aug 2025 16:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.575223
- Title: Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities
- Title(参考訳): モダリティを欠いたロバストなマルチモーダル感情認識のための硬度を考慮した動的カリキュラム学習
- Authors: Rui Liu, Haolin Zuo, Zheng Lian, Hongyu Yuan, Qi Fan,
- Abstract要約: 本稿では,Hardy-MER という,Hardness-Aware Dynamic Curriculum Learning フレームワークを提案する。
まず、各サンプルの硬度レベルを推定し、次に、トレーニング中の硬度レベルを戦略的に強調する。
ベンチマークデータセットの実験は、HARDY-MERが欠落したモダリティシナリオで既存のメソッドを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 15.783261732000883
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Missing modalities have recently emerged as a critical research direction in multimodal emotion recognition (MER). Conventional approaches typically address this issue through missing modality reconstruction. However, these methods fail to account for variations in reconstruction difficulty across different samples, consequently limiting the model's ability to handle hard samples effectively. To overcome this limitation, we propose a novel Hardness-Aware Dynamic Curriculum Learning framework, termed HARDY-MER. Our framework operates in two key stages: first, it estimates the hardness level of each sample, and second, it strategically emphasizes hard samples during training to enhance model performance on these challenging instances. Specifically, we first introduce a Multi-view Hardness Evaluation mechanism that quantifies reconstruction difficulty by considering both Direct Hardness (modality reconstruction errors) and Indirect Hardness (cross-modal mutual information). Meanwhile, we introduce a Retrieval-based Dynamic Curriculum Learning strategy that dynamically adjusts the training curriculum by retrieving samples with similar semantic information and balancing the learning focus between easy and hard instances. Extensive experiments on benchmark datasets demonstrate that HARDY-MER consistently outperforms existing methods in missing-modality scenarios. Our code will be made publicly available at https://github.com/HARDY-MER/HARDY-MER.
- Abstract(参考訳): 近年,マルチモーダル感情認識(MER)における重要な研究方向として,欠落モダリティが出現している。
従来のアプローチでは、典型的にはモダリティの再構築を欠くことでこの問題に対処する。
しかし、これらの手法は、異なるサンプル間での再構成難易度の変化を考慮できないため、モデルがハードサンプルを効果的に扱う能力を制限する。
この制限を克服するために、HARDY-MERと呼ばれる新しいハードネス対応動的カリキュラム学習フレームワークを提案する。
まず、各サンプルの硬度レベルを推定し、次に、これらの困難なインスタンスのモデルパフォーマンスを向上させるために、トレーニング中の硬度サンプルを戦略的に強調する。
具体的には、直接硬度(モダリティ復元誤り)と間接硬度(モダリティ相互情報)の両方を考慮することで、復元難度を定量化する多視点硬度評価機構を最初に導入する。
一方、検索型動的カリキュラム学習戦略を導入し、類似した意味情報を用いてサンプルを検索し、簡単なインスタンスと難しいインスタンス間の学習焦点のバランスをとることにより、トレーニングカリキュラムを動的に調整する。
ベンチマークデータセットに関する大規模な実験は、HARDY-MERが欠落したモダリティシナリオにおいて既存のメソッドを一貫して上回っていることを示している。
私たちのコードはhttps://github.com/HARDY-MER/HARDY-MERで公開されます。
関連論文リスト
- Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID [4.256800812615341]
ハードサンプルは、人物の再識別(ReID)タスクにおいて重要な課題となる。
それら固有の曖昧さや類似性は、明示的な定義の欠如と相まって、根本的なボトルネックとなっている。
本稿では,新しいマルチモーダル型ハードサンプル生成学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T09:14:01Z) - Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文 参考訳(メタデータ) (2025-06-04T15:31:46Z) - Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [30.98084422803278]
データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。
我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。
提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-26T08:09:44Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。