論文の概要: OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation
- arxiv url: http://arxiv.org/abs/2512.19379v1
- Date: Mon, 22 Dec 2025 13:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.770171
- Title: OmniMER: Indonesian Multimodal Emotion Recognition via Auxiliary-Enhanced LLM Adaptation
- Title(参考訳): OmniMER:補助的LLM適応によるインドネシアのマルチモーダル感情認識
- Authors: Xueming Yan, Boyan Xu, Yaochu Jin, Lixian Xiao, Wenlong Ye, Runyang Cai, Zeqi Zheng, Jingfa Liu, Aimin Yang,
- Abstract要約: IndoMERはインドネシア初のマルチモーダル感情認識ベンチマークである。
203人の話者による1,944の動画セグメントで、時間順にテキスト、オーディオ、視覚アノテーションが7つの感情カテゴリーにまたがっている。
OmniMER(OmniMER)は3つのモーダル固有認識タスクを通して感情認識を強化する多モーダル適応フレームワークである。
- 参考スコア(独自算出の注目度): 22.057449976327423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indonesian, spoken by over 200 million people, remains underserved in multimodal emotion recognition research despite its dominant presence on Southeast Asian social media platforms. We introduce IndoMER, the first multimodal emotion recognition benchmark for Indonesian, comprising 1,944 video segments from 203 speakers with temporally aligned text, audio, and visual annotations across seven emotion categories. The dataset exhibits realistic challenges including cross-modal inconsistency and long-tailed class distributions shaped by Indonesian cultural communication norms. To address these challenges, we propose OmniMER, a multimodal adaptation framework built upon Qwen2.5-Omni that enhances emotion recognition through three auxiliary modality-specific perception tasks: emotion keyword extraction for text, facial expression analysis for video, and prosody analysis for audio. These auxiliary tasks help the model identify emotion-relevant cues in each modality before fusion, reducing reliance on spurious correlations in low-resource settings. Experiments on IndoMER show that OmniMER achieves 0.582 Macro-F1 on sentiment classification and 0.454 on emotion recognition, outperforming the base model by 7.6 and 22.1 absolute points respectively. Cross-lingual evaluation on the Chinese CH-SIMS dataset further demonstrates the generalizability of the proposed framework. The dataset and code are publicly available. https://github.com/yanxm01/INDOMER
- Abstract(参考訳): インドネシア語は2億人を超える人々によって話され、東南アジアのソーシャルメディアプラットフォームに支配的な存在にもかかわらず、マルチモーダルな感情認識研究にはいまだに不足している。
インドネシアにおける最初のマルチモーダル感情認識ベンチマークであるIndoMERを紹介した。
このデータセットは、インドネシアの文化的コミュニケーション規範によって形成された、横断的不整合や長い尾のクラス分布を含む現実的な課題を示す。
これらの課題に対処するため,Qwen2.5-Omni上に構築されたマルチモーダル適応フレームワークであるOmniMERを提案する。
これらの補助的なタスクは、融合前の各モードにおける感情関連手がかりを特定するのに役立ち、低リソース環境における素早い相関への依存を減らす。
IndoMERの実験によると、OmniMERは感情分類の0.582 Macro-F1、感情認識の0.454を達成し、ベースモデルをそれぞれ7.6と22.1の絶対点で上回っている。
中国におけるCH-SIMSデータセットの言語間評価により,提案フレームワークの一般化可能性をさらに証明した。
データセットとコードは公開されている。
https://github.com/yanxm01/INDOMER
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning [55.127202990679976]
28,618粒の粗粒と4,487粒の細粒のアノテートサンプルを含むMERRデータセットを導入した。
このデータセットは、さまざまなシナリオから学習し、現実のアプリケーションに一般化することを可能にする。
本研究では,感情特異的エンコーダによる音声,視覚,テキスト入力をシームレスに統合するモデルであるEmotion-LLaMAを提案する。
論文 参考訳(メタデータ) (2024-06-17T03:01:22Z) - Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified
Datasets and Multitask Learning [24.57668015470307]
我々はSERタスクをマルチスケールの統一メトリックに基づいて統合するフレームワークであるSpeechEQを提案する。
この指標は、感情状態カテゴリー(EIS)と感情強度尺度(EIS)の2つの感情認識タスクを含むマルチタスク学習(MTL)によって訓練することができる。
本研究では,マンダリンにおけるCASIAおよびESDデータセットの公開実験を行い,本手法がベースライン法を比較的大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2022-06-27T08:11:54Z) - The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional
Reactions, and Stress [71.06453250061489]
マルチモーダル・センチメント・アナリティクス・チャレンジ(MuSe 2022)は、マルチモーダル・センチメントと感情認識に重点を置いている。
今年の課題では、(i)ドイツサッカーコーチの音声-視覚的記録を含むPassau Spontaneous Football Coach Humorデータセット、(ii)ドイツサッカーコーチのユーモアの存在をラベル付けしたHum-Reactionデータセット、(ii)感情的表情強度に対して個人の反応が注釈付けされたHum-Reactionデータセット、(iii)ストレス的態度における人々の継続的な感情的価値観をラベル付けした音声-視覚的データからなるUlm-Trier Social Stress Testデータセットの3つのデータセットを特徴としている。
論文 参考訳(メタデータ) (2022-06-23T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。