論文の概要: More Is Better: A MoE-Based Emotion Recognition Framework with Human Preference Alignment
- arxiv url: http://arxiv.org/abs/2508.06036v1
- Date: Fri, 08 Aug 2025 05:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.093066
- Title: More Is Better: A MoE-Based Emotion Recognition Framework with Human Preference Alignment
- Title(参考訳): より良くなったMoEベースの感情認識フレームワーク
- Authors: Jun Xie, Yingjian Zhu, Feng Chen, Zhenghao Zhang, Xiaohui Fan, Hongzhu Yi, Xinming Wang, Chen Yu, Yue Bi, Zhaoran Zhao, Xiongjun Guan, Zhepeng Wang,
- Abstract要約: MER2025における半教師付き学習トラック(MER-SEMI)のソリューションを提案する。
より優れた」という原則に基づく包括的枠組みを提案し,より堅牢なMixture of Experts (MoE)感情認識システムを構築する。
我々のアプローチは、独立した専門家として多様な入力モダリティを統合する。
- 参考スコア(独自算出の注目度): 24.56511209071154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present our solution for the semi-supervised learning track (MER-SEMI) in MER2025. We propose a comprehensive framework, grounded in the principle that "more is better," to construct a robust Mixture of Experts (MoE) emotion recognition system. Our approach integrates a diverse range of input modalities as independent experts, including novel signals such as knowledge from large Vision-Language Models (VLMs) and temporal Action Unit (AU) information. To effectively utilize unlabeled data, we introduce a consensus-based pseudo-labeling strategy, generating high-quality labels from the agreement between a baseline model and Gemini, which are then used in a two-stage training paradigm. Finally, we employ a multi-expert voting ensemble combined with a rule-based re-ranking process to correct prediction bias and better align the outputs with human preferences. Evaluated on the MER2025-SEMI challenge dataset, our method achieves an F1-score of 0.8772 on the test set, ranking 2nd in the track. Our code is available at https://github.com/zhuyjan/MER2025-MRAC25.
- Abstract(参考訳): 本稿では,MER2025における半教師付き学習トラック(MER-SEMI)のソリューションを提案する。
より優れた」という原則に基づく包括的枠組みを提案し,より堅牢なMixture of Experts (MoE)感情認識システムを構築する。
提案手法は,視覚言語モデル(VLM)や時間行動単位(AU)情報からの知識などの新しい信号を含む,独立した専門家として多様な入力モダリティを統合している。
ラベルのないデータを効果的に活用するために、ベースラインモデルとジェミニの合意から高品質なラベルを生成し、2段階トレーニングパラダイムで使用するコンセンサスベースの擬似ラベル戦略を導入する。
最後に、予測バイアスを補正し、出力を人間の好みに合わせるために、マルチエキスパート投票アンサンブルとルールベースのリグレードプロセスを組み合わせる。
MER2025-SEMIチャレンジデータセットに基づいて,テストセットのF1スコア0.8772を達成し,トラックの2位となった。
私たちのコードはhttps://github.com/zhuyjan/MER2025-MRAC25.comで公開されています。
関連論文リスト
- Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。
LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。
以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-07-13T04:21:21Z) - MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations [5.4482836906033585]
実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。
提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。
我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
論文 参考訳(メタデータ) (2025-05-24T08:43:42Z) - Cream of the Crop: Harvesting Rich, Scalable and Transferable Multi-Modal Data for Instruction Fine-Tuning [59.56171041796373]
我々は、堅牢で効率的なマルチモーダル・インストラクショナルデータを収集する。
インタラクションスタイルを多様性指標とし、マルチモーダルリッチなスタイルラーを用いてデータインストラクションパターンを識別する。
14のマルチモーダルベンチマークによって検証された10以上の実験環境において、ランダムサンプリング、ベースライン戦略、最先端の選択方法に対する一貫した改善を示す。
論文 参考訳(メタデータ) (2025-03-17T17:11:22Z) - Leveraging Contrastive Learning and Self-Training for Multimodal Emotion Recognition with Limited Labeled Samples [18.29910296652917]
MER2024-SEMI(Semi-Supervised Learning Sub-Challenge)に対する提案手法を提案する。
この課題は、感情認識における限られた注釈付きデータの問題に対処する。
提案手法はMER2024-SEMIチャレンジで有効であることが確認され, 平均Fスコア88.25%, リーダーボード6位となった。
論文 参考訳(メタデータ) (2024-08-23T11:33:54Z) - SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition [65.19303535139453]
我々は,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチを示す。
Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成する。
MER-OVトラックでは,オープンボキャブラリアノテーションにEmotion-LLaMAを用いることで,GPT-4Vと比較して平均精度とリコールが8.52%向上した。
論文 参考訳(メタデータ) (2024-08-20T02:46:03Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - MER 2023: Multi-label Learning, Modality Robustness, and Semi-Supervised
Learning [90.17500229142755]
第1回マルチモーダル感情認識チャレンジ(MER 2023)は、ACMマルチメディアで成功した。
本稿では、この課題の背景にある動機を紹介し、ベンチマークデータセットを説明し、参加者に関する統計情報を提供する。
この高品質なデータセットは、特に中国の研究コミュニティにとって、マルチモーダルな感情認識の新しいベンチマークになり得ると考えています。
論文 参考訳(メタデータ) (2023-04-18T13:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。