論文の概要: UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception
- arxiv url: http://arxiv.org/abs/2409.18877v2
- Date: Mon, 30 Sep 2024 13:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:06:44.238827
- Title: UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception
- Title(参考訳): UniEmoX: ユニバーサルシーン感情知覚のためのクロスモーダルセマンティックガイド付き大規模事前学習
- Authors: Chuang Chen, Xiao Sun, Zhi Liu,
- Abstract要約: 視覚的感情分析のためのクロスモーダルな意味誘導型大規模事前学習フレームワークUniEmoXを紹介する。
UniEmoXは、ペア画像と未ペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現を強化する。
Emo8というタイトルの視覚的感情的データセットを開発し、ほとんどすべての感情的シーンをカバーしています。
- 参考スコア(独自算出の注目度): 8.54013419046987
- License:
- Abstract: Visual emotion analysis holds significant research value in both computer vision and psychology. However, existing methods for visual emotion analysis suffer from limited generalizability due to the ambiguity of emotion perception and the diversity of data scenarios. To tackle this issue, we introduce UniEmoX, a cross-modal semantic-guided large-scale pretraining framework. Inspired by psychological research emphasizing the inseparability of the emotional exploration process from the interaction between individuals and their environment, UniEmoX integrates scene-centric and person-centric low-level image spatial structural information, aiming to derive more nuanced and discriminative emotional representations. By exploiting the similarity between paired and unpaired image-text samples, UniEmoX distills rich semantic knowledge from the CLIP model to enhance emotional embedding representations more effectively. To the best of our knowledge, this is the first large-scale pretraining framework that integrates psychological theories with contemporary contrastive learning and masked image modeling techniques for emotion analysis across diverse scenarios. Additionally, we develop a visual emotional dataset titled Emo8. Emo8 samples cover a range of domains, including cartoon, natural, realistic, science fiction and advertising cover styles, covering nearly all common emotional scenes. Comprehensive experiments conducted on six benchmark datasets across two downstream tasks validate the effectiveness of UniEmoX. The source code is available at https://github.com/chincharles/u-emo.
- Abstract(参考訳): 視覚的感情分析は、コンピュータビジョンと心理学の両方において重要な研究価値を持っている。
しかし、既存の視覚的感情分析法は、感情知覚のあいまいさとデータシナリオの多様性により、限定的な一般化性に悩まされている。
この問題に対処するため, モーダルなセマンティック誘導型大規模事前学習フレームワークUniEmoXを導入する。
UniEmoXは、個人と環境の間の相互作用から感情探索プロセスの分離性を強調した心理学的研究に触発され、よりニュアンスで差別的な感情表現を導出することを目的として、シーン中心および人中心の低レベル画像空間構造情報を統合した。
UniEmoXは、ペア画像とペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現をより効果的に強化する。
我々の知る限り、このフレームワークは、心理学理論を現代のコントラスト学習と統合する最初の大規模事前学習フレームワークであり、多様なシナリオにおける感情分析のためのマスク付き画像モデリング技術である。
さらに,視覚的感情的データセットEmo8を開発した。
Emo8サンプルは、漫画、自然、現実、SF、広告のカバースタイルなど、さまざまな領域をカバーする。
2つの下流タスクにわたる6つのベンチマークデータセットで実施された総合的な実験は、UniEmoXの有効性を検証する。
ソースコードはhttps://github.com/chincharles/u-emo.comで入手できる。
関連論文リスト
- EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - EmoSet: A Large-scale Visual Emotion Dataset with Rich Attributes [53.95428298229396]
リッチ属性を付加した最初の大規模視覚感情データセットであるEmoSetを紹介する。
EmoSetは合計330万枚の画像で構成され、そのうち118,102枚は人間のアノテーションによって慎重にラベル付けされている。
心理学的な研究によって動機付けられ、感情のカテゴリに加えて、各画像には記述可能な感情特性のセットが注釈付けされている。
論文 参考訳(メタデータ) (2023-07-16T06:42:46Z) - A cross-corpus study on speech emotion recognition [29.582678406878568]
本研究では,行動感情から学習した情報が,自然感情の検出に有用かどうかを検討する。
成人英語の4つのデータセットは、行動的、誘惑的、自然な感情をカバーしている。
性能劣化を正確に調査するための最先端モデルを提案する。
論文 参考訳(メタデータ) (2022-07-05T15:15:22Z) - EmoCaps: Emotion Capsule based Model for Conversational Emotion
Recognition [2.359022633145476]
会話中の感情認識(ERC)は、話者の状態を分析し、会話中の感情を識別することを目的としている。
ERCにおける最近の研究は文脈モデリングに焦点を当てているが、文脈的感情傾向の表現は無視されている。
Emoformerと呼ばれる新しい構造は、異なるモーダルから複数のモーダル感情ベクトルを抽出し、それらを文ベクトルで融合して感情カプセルにする。
論文 参考訳(メタデータ) (2022-03-25T08:42:57Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。
EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。
その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文 参考訳(メタデータ) (2020-03-30T12:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。