論文の概要: EEmo-Logic: A Unified Dataset and Multi-Stage Framework for Comprehensive Image-Evoked Emotion Assessment
- arxiv url: http://arxiv.org/abs/2602.01173v1
- Date: Sun, 01 Feb 2026 11:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.643642
- Title: EEmo-Logic: A Unified Dataset and Multi-Stage Framework for Comprehensive Image-Evoked Emotion Assessment
- Title(参考訳): EEmo-Logic: 総合的な画像誘発感情評価のための統一されたデータセットとマルチステージフレームワーク
- Authors: Lancheng Gao, Ziheng Jia, Zixuan Xing, Wei Sun, Huiyu Duan, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: EEmoDBは、これまでで最大のイメージ誘発感情理解データセットである。
EEmo-Logicは命令の微調整とタスクカストマイズされたグループ相対的優先度最適化によって開発されたオールインワンのマルチモーダル言語モデル(MLLM)である。
- 参考スコア(独自算出の注目度): 76.9843141359798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the multi-dimensional attributes and intensity nuances of image-evoked emotions is pivotal for advancing machine empathy and empowering diverse human-computer interaction applications. However, existing models are still limited to coarse-grained emotion perception or deficient reasoning capabilities. To bridge this gap, we introduce EEmoDB, the largest image-evoked emotion understanding dataset to date. It features $5$ analysis dimensions spanning $5$ distinct task categories, facilitating comprehensive interpretation. Specifically, we compile $1.2M$ question-answering (QA) pairs (EEmoDB-QA) from $125k$ images via automated generation, alongside a $36k$ dataset (EEmoDB-Assess) curated from $25k$ images for fine-grained assessment. Furthermore, we propose EEmo-Logic, an all-in-one multimodal large language model (MLLM) developed via instruction fine-tuning and task-customized group relative preference optimization (GRPO) with novel reward design. Extensive experiments demonstrate that EEmo-Logic achieves robust performance in in-domain and cross-domain datasets, excelling in emotion QA and fine-grained assessment. The code is available at https://anonymous.4open.science/r/EEmoLogic.
- Abstract(参考訳): 画像誘発感情の多次元特性と強度ニュアンスを理解することは、機械の共感を前進させ、多様な人間とコンピュータの相互作用アプリケーションを強化するために重要である。
しかし、既存のモデルはいまだに粗い感情知覚や不十分な推論能力に限られている。
このギャップを埋めるために、これまでで最大のイメージ誘発感情理解データセットであるEEmoDBを紹介します。
5ドルの異なるタスクカテゴリにまたがる5ドルの分析ディメンションを備えており、包括的な解釈を容易にする。
具体的には、自動生成を介して125k$イメージから12M$QAペア(EEmoDB-QA)をコンパイルし、詳細な評価のために25k$イメージから36k$データセット(EEmoDB-Assess)をキュレートする。
さらに,命令微調整とタスク適応型グループ相対的優先最適化(GRPO)によって開発されたオールインワンマルチモーダル・大規模言語モデル(MLLM)であるEEmo-Logicを提案する。
大規模な実験により、EEmo-Logicは、ドメイン内とクロスドメインのデータセットで堅牢なパフォーマンスを実現し、感情QAときめ細かい評価に優れています。
コードはhttps://anonymous.4open.science/r/EEmoLogicで公開されている。
関連論文リスト
- Beyond a Single Perspective: Text Anomaly Detection with Multi-View Language Representations [48.7146621463489]
テキスト異常検出(TAD)は、有害なコンテンツモデレーション、フィッシング検出、スパムレビューフィルタリングなど、様々な言語による現実世界のアプリケーションにおいて重要な役割を果たす。
2段階の「埋め込み-検出」TAD手法は最先端のパフォーマンスを示しているが、その効果は単一の埋め込みモデルを使用することと、多様なデータセットや異常なタイプにまたがる適応性の欠如によって制限されることが多い。
本稿では,複数の事前学習言語モデルからの埋め込みを利用して,マルチビューTADフレームワークである$MCA2$に統合することを提案する。
論文 参考訳(メタデータ) (2026-01-25T10:52:59Z) - OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction [72.19473883287948]
LongEmotionは、ロングコンテキスト感情知能(EI)タスク用に特別に設計されたベンチマークである。
感情分類、感情検出、感情QA、感情会話、感情概要、感情表現など、さまざまなタスクをカバーしている。
現実的な制約下での性能を高めるため、検索型強化世代(RAG)と協調感情モデリング(CoEM)を取り入れた。
論文 参考訳(メタデータ) (2025-09-09T05:32:45Z) - Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。
我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。
Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文 参考訳(メタデータ) (2025-04-23T16:23:17Z) - FingER: Content Aware Fine-grained Evaluation with Reasoning for AI-Generated Videos [18.3012265316413]
本稿では,新しいエンティティレベルの推論評価フレームワークである $textbfF$ine-fine $textbfE$ntity-level を提案する。
我々のモデルは、GenAI-Benchが11.8%、MonetBenchが5.5%、トレーニングビデオが3.3kという既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-04-14T16:07:16Z) - EmoBench-M: Benchmarking Emotional Intelligence for Multimodal Large Language Models [36.18925551835687]
EmoBench-Mは、マルチモーダル大言語モデル(MLLM)の感情知能(EI)能力を評価するために設計された新しいベンチマークである。
EmoBench-M上でのオープンソースとクローズドソース両方のMLLMの評価は、彼らと人間の間に大きなパフォーマンスギャップがあることを示している。
論文 参考訳(メタデータ) (2025-02-06T18:13:35Z) - MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Energy-based Automated Model Evaluation [19.90797626200033]
本稿では,AutoEvalフレームワークをより効率的かつ効果的にするための新しい手段として,Meta-Distribution Energy(MDE)を提案する。
MDEは、個々のサンプルに関連する情報(エネルギー)に基づいて、メタ分布統計を確立し、エネルギーベースの学習によってよりスムーズな表現を提供する。
我々は、MDEの有効性を検証するために、モダリティ、データセット、異なるアーキテクチャのバックボーンにわたる広範な実験を提供する。
論文 参考訳(メタデータ) (2024-01-23T11:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。