論文の概要: Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy
- arxiv url: http://arxiv.org/abs/2603.02123v1
- Date: Mon, 02 Mar 2026 17:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.010134
- Title: Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy
- Title(参考訳): Nano-EmoX: 知覚から共感へのマルチモーダル感情インテリジェンスの統合
- Authors: Jiahao Huang, Fengyan Lin, Xuechao Yang, Chen Feng, Kexin Zhu, Xu Yang, Zhide Chen,
- Abstract要約: 本研究では,感情的タスクを認知的深度知覚,理解,相互作用に応じて整理する3段階階層を提案する。
我々は,小型マルチタスクモデリングであるNano-EmoXと,カリキュラムベースのトレーニングフレームワークであるP2E(PerceptiontoEmpathy)を紹介する。
出力は異種アダプタを通じて統一された言語空間に投影され、様々な感情的タスクに取り組むために軽量な言語モデルに権限を与える。
- 参考スコア(独自算出の注目度): 9.590408084883402
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The development of affective multimodal language models (MLMs) has long been constrained by a gap between low-level perception and high-level interaction, leading to fragmented affective capabilities and limited generalization. To bridge this gap, we propose a cognitively inspired three-level hierarchy that organizes affective tasks according to their cognitive depth-perception, understanding, and interaction-and provides a unified conceptual foundation for advancing affective modeling. Guided by this hierarchy, we introduce Nano-EmoX, a small-scale multitask MLM, and P2E (Perception-to-Empathy), a curriculum-based training framework. Nano-EmoX integrates a suite of omni-modal encoders, including an enhanced facial encoder and a fusion encoder, to capture key multimodal affective cues and improve cross-task transferability. The outputs are projected into a unified language space via heterogeneous adapters, empowering a lightweight language model to tackle diverse affective tasks. Concurrently, P2E progressively cultivates emotional intelligence by aligning rapid perception with chain-of-thought-driven empathy. To the best of our knowledge, Nano-EmoX is the first compact MLM (2.2B) to unify six core affective tasks across all three hierarchy levels, achieving state-of-the-art or highly competitive performance across multiple benchmarks, demonstrating excellent efficiency and generalization.
- Abstract(参考訳): 感情多モーダル言語モデル(MLM)の開発は、長い間、低レベルの知覚と高レベルの相互作用のギャップによって制約されてきた。
このギャップを埋めるために、我々は、認知的深度知覚、理解、相互作用に基づいて感情的タスクを組織する認知的にインスピレーションを受けた3段階階層を提案し、感情的モデリングを促進するための統一された概念的基盤を提供する。
この階層に導かれ、小型マルチタスクMLMであるNano-EmoXと、カリキュラムベースのトレーニングフレームワークであるP2E(Perception-to-Empathy)を紹介する。
Nano-EmoXは、拡張された顔エンコーダと融合エンコーダを含むオムニモードエンコーダのスイートを統合し、キーマルチモーダルの感情的手がかりをキャプチャし、クロスタスク転送性を改善する。
出力は異種アダプタを通じて統一された言語空間に投影され、様々な感情的タスクに取り組むために軽量な言語モデルに権限を与える。
同時に、P2Eは、素早い知覚とチェーン・オブ・インテリジェンス・インテリジェンス・インテリジェンス(英語版)を協調させることによって、感情的インテリジェンスを徐々に育む。
我々の知る限り、Nano-EmoXは3つの階層レベルにまたがる6つの中核的情動タスクを統一する最初のコンパクトMLM(2.2B)であり、複数のベンチマークで最先端または高い競争性能を達成し、優れた効率性と一般化を示す。
関連論文リスト
- Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots [7.665995147018354]
textitSeM$2$は、感情的にコヒーレントなマルチモーダルインタラクションを編成するビジョン言語モデルベースのフレームワークである。
我々はクラウドベースとアンダーラインのtextitedge-deployedバージョン(textitSeM$2_e$)の両方を実装し、後者の知識はエッジハードウェア上で効率的に動作するように蒸留されている。
包括的評価は,本手法が自然性,感情的明瞭性,モーダルコヒーレンスにおいて,一様基線を著しく上回ることを示した。
論文 参考訳(メタデータ) (2026-02-07T08:32:54Z) - Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding [45.13650362585136]
Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。
エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。
LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
論文 参考訳(メタデータ) (2026-01-23T05:02:43Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - MME-Emotion: A Holistic Evaluation Benchmark for Emotional Intelligence in Multimodal Large Language Models [108.61337743051483]
MME-Emotionは,MLLMの感情的理解と推論能力の両方を評価するシステムベンチマークである。
MME-Emotionには6000以上のキュレートされたビデオクリップとタスク固有の質問回答(QA)ペアが含まれており、8つの感情的なタスクを定式化するための広いシナリオにまたがっている。
マルチエージェントシステムフレームワークを通じて分析された、感情認識と推論のためのハイブリッドメトリクスを備えた総合評価スイートが組み込まれている。
論文 参考訳(メタデータ) (2025-08-11T03:14:55Z) - MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding [24.731387422897644]
マルチモーダル大言語モデル(MLLM)は、最近、複数のモーダル間のデータ統合において強力な能力を示した。
Modular Duplex Attention (MODA)は、インナー・モーダル・リファインメントとインターモーダル・インタラクションを同時に行う。
21のベンチマークデータセットの実験は、知覚、認知、感情タスクにおけるMODAの有効性を検証する。
論文 参考訳(メタデータ) (2025-07-07T03:37:42Z) - All rivers run into the sea: Unified Modality Brain-like Emotional Central Mechanism [32.742064026327334]
UMBEnetは脳に似た統合型モーダル感情処理ネットワークである。
UMBEnetの基本設計は、プロンプトプールとスパースフィーチャーフュージョン(SFF)モジュールで固有のプロンプトを融合するデュアルストリーム(DS)構造である。
Dynamic Facial Expression Recognition (DFER)フィールドにおける最大のベンチマークデータセットの実験では、UMBEnetは現在の最先端メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-07-22T12:26:31Z) - EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Making LLaMA SEE and Draw with SEED Tokenizer [69.1083058794092]
大規模言語モデルにSEEとDrawの能力を持たせるための精巧な画像トークンであるSEEDを紹介します。
SEEDトークンを使うことで、LLMはオリジナルのトレーニングレシピの下でスケーラブルなマルチモーダルオートレグレスを実行することができる。
SEED-LLaMAはマルチターン・イン・コンテクスト・マルチモーダル生成のような合成創発的能力を示す。
論文 参考訳(メタデータ) (2023-10-02T14:03:02Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。