論文の概要: Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities
- arxiv url: http://arxiv.org/abs/2508.06800v2
- Date: Thu, 14 Aug 2025 16:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.575223
- Title: Hardness-Aware Dynamic Curriculum Learning for Robust Multimodal Emotion Recognition with Missing Modalities
- Title(参考訳): モダリティを欠いたロバストなマルチモーダル感情認識のための硬度を考慮した動的カリキュラム学習
- Authors: Rui Liu, Haolin Zuo, Zheng Lian, Hongyu Yuan, Qi Fan,
- Abstract要約: 本稿では,Hardy-MER という,Hardness-Aware Dynamic Curriculum Learning フレームワークを提案する。
まず、各サンプルの硬度レベルを推定し、次に、トレーニング中の硬度レベルを戦略的に強調する。
ベンチマークデータセットの実験は、HARDY-MERが欠落したモダリティシナリオで既存のメソッドを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 15.783261732000883
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Missing modalities have recently emerged as a critical research direction in multimodal emotion recognition (MER). Conventional approaches typically address this issue through missing modality reconstruction. However, these methods fail to account for variations in reconstruction difficulty across different samples, consequently limiting the model's ability to handle hard samples effectively. To overcome this limitation, we propose a novel Hardness-Aware Dynamic Curriculum Learning framework, termed HARDY-MER. Our framework operates in two key stages: first, it estimates the hardness level of each sample, and second, it strategically emphasizes hard samples during training to enhance model performance on these challenging instances. Specifically, we first introduce a Multi-view Hardness Evaluation mechanism that quantifies reconstruction difficulty by considering both Direct Hardness (modality reconstruction errors) and Indirect Hardness (cross-modal mutual information). Meanwhile, we introduce a Retrieval-based Dynamic Curriculum Learning strategy that dynamically adjusts the training curriculum by retrieving samples with similar semantic information and balancing the learning focus between easy and hard instances. Extensive experiments on benchmark datasets demonstrate that HARDY-MER consistently outperforms existing methods in missing-modality scenarios. Our code will be made publicly available at https://github.com/HARDY-MER/HARDY-MER.
- Abstract(参考訳): 近年,マルチモーダル感情認識(MER)における重要な研究方向として,欠落モダリティが出現している。
従来のアプローチでは、典型的にはモダリティの再構築を欠くことでこの問題に対処する。
しかし、これらの手法は、異なるサンプル間での再構成難易度の変化を考慮できないため、モデルがハードサンプルを効果的に扱う能力を制限する。
この制限を克服するために、HARDY-MERと呼ばれる新しいハードネス対応動的カリキュラム学習フレームワークを提案する。
まず、各サンプルの硬度レベルを推定し、次に、これらの困難なインスタンスのモデルパフォーマンスを向上させるために、トレーニング中の硬度サンプルを戦略的に強調する。
具体的には、直接硬度(モダリティ復元誤り)と間接硬度(モダリティ相互情報)の両方を考慮することで、復元難度を定量化する多視点硬度評価機構を最初に導入する。
一方、検索型動的カリキュラム学習戦略を導入し、類似した意味情報を用いてサンプルを検索し、簡単なインスタンスと難しいインスタンス間の学習焦点のバランスをとることにより、トレーニングカリキュラムを動的に調整する。
ベンチマークデータセットに関する大規模な実験は、HARDY-MERが欠落したモダリティシナリオにおいて既存のメソッドを一貫して上回っていることを示している。
私たちのコードはhttps://github.com/HARDY-MER/HARDY-MERで公開されます。
関連論文リスト
- Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric [36.2724900971511]
circuit-guided Unlearning Difficulty (CUD) は、回路レベルの信号を用いて各サンプルに連続的な難易度スコアを割り当てるメトリクスである。
難易度の機械的シグネチャを示す重要な回路レベルのパターンを同定する。
論文 参考訳(メタデータ) (2026-01-14T16:55:58Z) - Tailored Teaching with Balanced Difficulty: Elevating Reasoning in Multimodal Chain-of-Thought via Prompt Curriculum [39.57901536686932]
MCoT(Multimodal Chain-of-Thought)プロンプトは、ランダムまたは手動で選択された例によって制限されることが多い。
本稿では,「バランスのとれた教養」という教育原理に着想を得た新しい枠組みを提案する。
提案手法は, モデル認識難易度を, アクティブな学習環境における予測不一致による定量化と, 任意のモデルから独立して各質問画像対の難易度を測定する内在的なサンプル複雑性の2つの相補的信号を統合する。
論文 参考訳(メタデータ) (2025-08-26T04:32:15Z) - VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - Try Harder: Hard Sample Generation and Learning for Clothes-Changing Person Re-ID [4.256800812615341]
ハードサンプルは、人物の再識別(ReID)タスクにおいて重要な課題となる。
それら固有の曖昧さや類似性は、明示的な定義の欠如と相まって、根本的なボトルネックとなっている。
本稿では,新しいマルチモーダル型ハードサンプル生成学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-15T09:14:01Z) - Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。
本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。
まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。
第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文 参考訳(メタデータ) (2025-06-04T15:31:46Z) - Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [30.98084422803278]
データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。
我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。
提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-26T08:09:44Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [68.20973671493203]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - CurricularFace: Adaptive Curriculum Learning Loss for Deep Face
Recognition [79.92240030758575]
本稿では,カリキュラム学習の概念を損失関数に組み込んだ適応型カリキュラム学習損失(CurricularFace)を提案する。
我々のCurricularFaceは、異なるトレーニング段階における簡単なサンプルとハードサンプルの相対的重要性を適応的に調整する。
論文 参考訳(メタデータ) (2020-04-01T08:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。