論文の概要: Leveraging Self-Paced Curriculum Learning for Enhanced Modality Balance in Multimodal Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2605.21565v1
- Date: Wed, 20 May 2026 17:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.467586
- Title: Leveraging Self-Paced Curriculum Learning for Enhanced Modality Balance in Multimodal Conversational Emotion Recognition
- Title(参考訳): マルチモーダル会話感情認識におけるモダリティバランス向上のための自己更新型カリキュラム学習の活用
- Authors: Phuong-Anh Nguyen, The-Son Le, Duc-Trong Le, Cam-Van Thi Nguyen,
- Abstract要約: 会話におけるマルチモーダル感情認識(MERC)は,人間の対話を理解する上で重要な課題である。
本稿では,MERCのためのSPCL(Self-Paced Curriculum Learning)に基づくプラグイン・アンド・プレイフレームワークを提案する。
発話レベルと会話レベルの両方の課題をキャプチャする二段階Difficulty Measurerを導入する。
- 参考スコア(独自算出の注目度): 2.458499866376012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Emotion Recognition in Conversations (MERC) is a crucial task for understanding human interactions, where multimodal approaches integrating language, facial expressions, and vocal tone have achieved significant progress. However, modality misalignment and imbalanced learning remain major challenges, limiting the effective utilization of multimodal information. To address this issue, we propose a plug-and-play framework based on Self-Paced Curriculum Learning (SPCL) for MERC. We introduce a dual-level Difficulty Measurer that captures both utterance-level and conversation-level challenges. The utterance-level score models fine-grained modality-specific difficulty, while the conversation-level score captures broader dialogue structures, including emotional dependencies and modality coherence. Based on these scores, the Learning Scheduler dynamically guides training from easier to more difficult instances. By integrating SPCL into existing MERC architectures, our method alleviates modality imbalance and improves model robustness. Extensive experiments on the IEMOCAP and MELD datasets demonstrate consistent improvements across different architectures and modality settings. On IEMOCAP, SPCL improves weighted F1-score by approximately +1.2% to +6.6% over baseline models, while on MELD, gains reach up to +10.4%. These results highlight the effectiveness and generalizability of SPCL as a lightweight plug-and-play module for multimodal emotion recognition.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は,言語,表情,声調を融合した多モーダルアプローチが大きな進歩を遂げた,人間の相互作用を理解する上で重要な課題である。
しかし、モダリティのミスアライメントと不均衡学習は大きな課題であり、マルチモーダル情報の有効利用を制限している。
そこで本研究では,MERCのためのSPCL(Self-Paced Curriculum Learning)に基づくプラグイン・アンド・プレイフレームワークを提案する。
発話レベルと会話レベルの両方の課題をキャプチャする二重レベルDifficulty Measurerを導入する。
発話レベルスコアは、微粒なモダリティ固有の難易度をモデル化し、会話レベルスコアは、感情的依存やモダリティコヒーレンスを含む幅広い対話構造をキャプチャする。
これらのスコアに基づいて、Learning Schedulerは、より簡単なインスタンスからより難しいインスタンスまで、トレーニングを動的にガイドする。
既存のMERCアーキテクチャにSPCLを組み込むことで、モダリティの不均衡を緩和し、モデルロバスト性を向上させる。
IEMOCAPとMELDデータセットに関する大規模な実験は、異なるアーキテクチャとモダリティ設定で一貫した改善を示している。
IEMOCAPでは、SPCLはベースラインモデルよりも約+1.2%から+6.6%の重み付きF1スコアを改善し、MELDでは+10.4%まで上昇する。
これらの結果は、マルチモーダル感情認識のための軽量なプラグイン・アンド・プレイモジュールとしてのSPCLの有効性と一般化性を強調した。
関連論文リスト
- SPARD: Self-Paced Curriculum for RL Alignment via Integrating Reward Dynamics and Data Utility [71.76390626651254]
本研究では,学習の進捗を把握し,多目的報酬重み付けとデータ重要度を動的に調整し,自己完結型カリキュラムを構築するフレームワークであるSPARDを提案する。
複数のベンチマークにわたる大規模な実験により、SPARDはすべてのドメインにわたるモデル機能を大幅に強化することが示された。
論文 参考訳(メタデータ) (2026-04-09T05:37:22Z) - Label What Matters: Modality-Balanced and Difficulty-Aware Multimodal Active Learning [13.136629024689432]
モダリティバランスと難易度を考慮した能動学習のための強化学習フレームワークRL-MBAを提案する。
Food101、KineeticsSound、VGGSoundの実験は、RL-MBAが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-03-26T07:26:48Z) - UniICL: Systematizing Unified Multimodal In-context Learning through a Capability-Oriented Taxonomy [99.95663439922937]
文脈内学習の有効性は、しばしば単調でタスクに依存しない。
実証の機能的役割を分類する6段階の能力指向分類法を導入する。
大規模コーパスであるUniICL-760Kを構築する。
アーキテクチャの介入として、コンテキスト適応型プロトタイプモジュレータを提案する。
論文 参考訳(メタデータ) (2026-03-25T18:09:33Z) - Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文 参考訳(メタデータ) (2026-01-27T00:55:14Z) - Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention [27.15999842662482]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な技術である。
本稿では、EAM(Energy-Adaptive Mixup)法とFLAM(Flight-level attention module)法を統合したマルチロス学習フレームワークを提案する。
提案手法は,IEMOCAP, MSP-IMPROV, RAVDESS, SAVEEの4種類のSERデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2025-12-04T08:04:45Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [27.20479303843989]
DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文 参考訳(メタデータ) (2025-03-09T05:30:15Z) - Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion
Recognition [2.4660652494309936]
MultiDAG+CLは会話におけるマルチモーダル感情認識の新しいアプローチ
このモデルはCurriculum Learning (CL)によって強化され、感情の変化やデータの不均衡に関連する課題に対処する。
IEMOCAPとMELDデータセットの実験結果は、MultiDAG+CLモデルがベースラインモデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-02-27T07:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。