Fugu-MT 論文翻訳(概要): Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding

論文の概要: Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding

arxiv url: http://arxiv.org/abs/2505.06685v1
Date: Sat, 10 May 2025 16:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:48.988524
Title: Emotion-Qwen: Training Hybrid Experts for Unified Emotion and General Vision-Language Understanding
Title（参考訳）: Emotion-Qwen:Unified Emotion and General Vision-Language Understandingのためのハイブリッドエキスパートのトレーニング
Authors: Dawei Huang, Qing Li, Chuan Yan, Zebang Cheng, Yurong Huang, Xiang Li, Bin Li, Xiaohui Wang, Zheng Lian, Xiaojiang Peng,
Abstract要約: Emotion-Qwenは、感情理解と一般的な視覚言語推論の両方を強化するために設計されたフレームワークである。 Emotion-Qwenは、Mixture of Experts (MoE)パラダイムに基づいた洗練されたハイブリッドを組み込んでいる。ビデオ感情推論(VER)データセットを構築し,40万本以上のバイリンガルビデオクリップと詳細な記述的アノテーションを用いて,感情・クウェンの感情推論能力をさらに強化する。
参考スコア（独自算出の注目度）: 24.884935271771624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotion understanding in videos aims to accurately recognize and interpret individuals' emotional states by integrating contextual, visual, textual, and auditory cues. While Large Multimodal Models (LMMs) have demonstrated significant progress in general vision-language (VL) tasks, their performance in emotion-specific scenarios remains limited. Moreover, fine-tuning LMMs on emotion-related tasks often leads to catastrophic forgetting, hindering their ability to generalize across diverse tasks. To address these challenges, we present Emotion-Qwen, a tailored multimodal framework designed to enhance both emotion understanding and general VL reasoning. Emotion-Qwen incorporates a sophisticated Hybrid Compressor based on the Mixture of Experts (MoE) paradigm, which dynamically routes inputs to balance emotion-specific and general-purpose processing. The model is pre-trained in a three-stage pipeline on large-scale general and emotional image datasets to support robust multimodal representations. Furthermore, we construct the Video Emotion Reasoning (VER) dataset, comprising more than 40K bilingual video clips with fine-grained descriptive annotations, to further enrich Emotion-Qwen's emotional reasoning capability. Experimental results demonstrate that Emotion-Qwen achieves state-of-the-art performance on multiple emotion recognition benchmarks, while maintaining competitive results on general VL tasks. Code and models are available at https://anonymous.4open.science/r/Emotion-Qwen-Anonymous.
Abstract（参考訳）: ビデオにおける感情理解は、文脈的、視覚的、テキスト的、聴覚的キューを統合することによって、個人の感情状態を正確に認識し、解釈することを目的としている。 LMM(Large Multimodal Models)は、一般的な視覚言語(VL)タスクにおいて顕著な進歩を示しているが、感情固有のシナリオにおけるそれらのパフォーマンスは限定的である。さらに、感情に関連したタスクを微調整したLMMは、しばしば破滅的な忘れを招き、様々なタスクにまたがる一般化を阻害する。これらの課題に対処するために、感情理解と一般的なVL推論の両方を強化するために設計されたマルチモーダルフレームワークであるEmotion-Qwenを提案する。 Emotion-Qwenには、Mixture of Experts (MoE)パラダイムに基づいた洗練されたハイブリッド圧縮機が組み込まれている。このモデルは、堅牢なマルチモーダル表現をサポートするために、大規模で一般的な感情的なイメージデータセット上の3段階のパイプラインで事前訓練されている。さらに,ビデオ感情推論(VER)データセットを構築し,40K以上のバイリンガルなビデオクリップと詳細な記述的アノテーションを組み合わせることで,感情・クウェンの感情的推論能力をさらに強化する。 Emotion-Qwenは、一般的なVLタスクの競合結果を維持しつつ、複数の感情認識ベンチマークで最先端のパフォーマンスを達成することを示す実験結果が得られた。コードとモデルはhttps://anonymous.4open.science/r/Emotion-Qwen-Anonymousで公開されている。

関連論文リスト

UniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries [61.5273479616832]
感情的理解と生成をシームレスに統合する統合フレームワークを提案する。我々は,UniEmoが感情的理解と生成の両タスクにおいて,最先端の手法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2025-07-31T09:39:27Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
AI with Emotions: Exploring Emotional Expressions in Large Language Models [0.0]
大きな言語モデル(LLM)は、特定の感情状態で質問に答えるエージェントとしてロールプレイを行う。ラッセルの「サイクムプレックス」モデルは、眠気(覚醒)と快楽(静寂)の軸に沿った感情を特徴づける。評価の結果, 生成した回答の感情状態は, 仕様と一致していた。
論文参考訳（メタデータ） (2025-04-20T18:49:25Z)
Omni-Emotion: Extending Video MLLM with Detailed Face and Audio Modeling for Multimodal Emotion Analysis [6.387263468033964]
自己レビューデータセットと人間レビューデータセットを導入し,24,137個の粗粒度サンプルと3,500個の手作業で詳細な感情アノテーションを付加したアノテートサンプルを作成した。音声モデリングに加えて,既存の高度なビデオMLLMに顔符号化モデルを明示的に統合することを提案する。我々のOmni-Emotionは、感情認識と推論の両方において最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-01-16T12:27:05Z)
MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation [39.30784838378127]
音声アバターの生成は、正確な音声同期において大きな進歩を遂げた。現在の手法は、単一の基本的な感情表現をモデル化するフレームワークの欠如など、基本的な課題に直面している。本研究では,6つの基本的な感情を分離し,特異な感情状態と複合的な感情状態の両方を正確に合成する混合感情エキスパートモデルを提案する。 DH-FaceEmoVid-150データセットと組み合わせて、複雑な感情表現とニュアンスのある顔の詳細を生成するのにMoEEフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2025-01-03T13:43:21Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
EmoVerse: Exploring Multimodal Large Language Models for Sentiment and Emotion Understanding [5.3848462080869215]
Emotion Universe (EmoVerse) は、感情や感情に関連する幅広いタスクを扱うためのMLLMである。 EmoVerseは感情状態の根本原因を深く分析することができる。また、Affective Multitask (AMT)データセットについても紹介する。
論文参考訳（メタデータ） (2024-12-11T02:55:00Z)
When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文参考訳（メタデータ） (2024-12-03T15:39:05Z)
EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。 EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文参考訳（メタデータ） (2024-06-24T08:33:02Z)
Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文参考訳（メタデータ） (2024-01-12T16:42:10Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)
Emotion Recognition from Multiple Modalities: Fundamentals and Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文参考訳（メタデータ） (2021-08-18T21:55:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。