論文の概要: Enhancing Micro Gesture Recognition for Emotion Understanding via Context-aware Visual-Text Contrastive Learning
- arxiv url: http://arxiv.org/abs/2405.01885v1
- Date: Fri, 3 May 2024 07:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 13:35:25.942931
- Title: Enhancing Micro Gesture Recognition for Emotion Understanding via Context-aware Visual-Text Contrastive Learning
- Title(参考訳): 文脈認識型視覚テキストコントラスト学習による感情理解のためのマイクロジェスチャ認識の強化
- Authors: Deng Li, Bohao Xing, Xin Liu,
- Abstract要約: マイクロジェスチャ(MG)は人間の感情と密接に関連している。
既存のマイクロジェスチャ認識(MGR)法は、重要なテキスト情報を見越しながら単一のモダリティ(例えばRGBやスケルトン)のみを利用する。
そこで本研究では,MGRのためのテキスト情報を利用した,シンプルだが効果的なビジュアルテキストコントラスト学習ソリューションを提案する。
- 参考スコア(独自算出の注目度): 4.819180187758932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Psychological studies have shown that Micro Gestures (MG) are closely linked to human emotions. MG-based emotion understanding has attracted much attention because it allows for emotion understanding through nonverbal body gestures without relying on identity information (e.g., facial and electrocardiogram data). Therefore, it is essential to recognize MG effectively for advanced emotion understanding. However, existing Micro Gesture Recognition (MGR) methods utilize only a single modality (e.g., RGB or skeleton) while overlooking crucial textual information. In this letter, we propose a simple but effective visual-text contrastive learning solution that utilizes text information for MGR. In addition, instead of using handcrafted prompts for visual-text contrastive learning, we propose a novel module called Adaptive prompting to generate context-aware prompts. The experimental results show that the proposed method achieves state-of-the-art performance on two public datasets. Furthermore, based on an empirical study utilizing the results of MGR for emotion understanding, we demonstrate that using the textual results of MGR significantly improves performance by 6%+ compared to directly using video as input.
- Abstract(参考訳): 心理学的な研究により、マイクロ・ジェスチャ(MG)は人間の感情と密接に関連していることが示されている。
MGに基づく感情理解は、身元情報(顔や心電図のデータなど)を頼らずに、非言語的身体動作による感情理解を可能にするため、多くの注目を集めている。
したがって、高度な感情理解のためには、MGを効果的に認識することが不可欠である。
しかし、既存のマイクロジェスチャー認識(MGR)法では、重要なテキスト情報を見越しながら単一のモード(例えばRGBやスケルトン)しか利用していない。
本稿では,MGRのテキスト情報を利用した,シンプルで効果的な視覚テキストコントラスト学習ソリューションを提案する。
さらに,視覚テキストのコントラスト学習に手書きのプロンプトを使う代わりに,文脈認識プロンプトを生成するためのAdaptiveプロンプトと呼ばれる新しいモジュールを提案する。
実験の結果,提案手法は2つの公開データセット上での最先端性能を実現することがわかった。
さらに、感情理解のためのMGRの結果を利用した経験的研究に基づいて、MGRのテキストによる結果を用いることで、ビデオを直接入力として使用するよりも、6%以上性能が向上することが実証された。
関連論文リスト
- EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning [26.95442405140093]
本研究は,情緒的文脈に関連する指導の理解と定着におけるモデルの能力向上に焦点を当てる。
本稿では,感情の視覚的インストラクションデータを生成するための新しいGPT支援パイプラインを提案する。
提案するEmoVITアーキテクチャは感情固有の命令データを組み込んで,大規模言語モデルの強力な機能を活用している。
論文 参考訳(メタデータ) (2024-04-25T15:15:36Z) - Multimodal Emotion Recognition by Fusing Video Semantic in MOOC Learning Scenarios [6.987099464814016]
MOOC(Massive Open Online Courses)では,指導ビデオの意味情報は学習者の感情状態に決定的な影響を及ぼす。
本稿では,映像意味情報と意味信号の融合によるマルチモーダル感情認識手法を提案する。
実験の結果,本手法は感情認識性能を著しく改善したことが示された。
論文 参考訳(メタデータ) (2024-04-11T05:44:27Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - StyleEDL: Style-Guided High-order Attention Network for Image Emotion
Distribution Learning [69.06749934902464]
StyleEDLと呼ばれる画像感情分布学習のためのスタイル誘導型高次アテンションネットワークを提案する。
StyleEDLは視覚内容の階層的スタイリスティック情報を探索することにより、画像のスタイリスティックな表現を対話的に学習する。
さらに、コンテンツ依存の感情表現を動的に生成するスタイリスティックなグラフ畳み込みネットワークを導入する。
論文 参考訳(メタデータ) (2023-08-06T03:22:46Z) - Learning Emotion Representations from Verbal and Nonverbal Communication [7.747924294389427]
本稿では,言語・非言語コミュニケーションから視覚的感情表現を抽出する最初の事前学習パラダイムであるEmotionCLIPを提案する。
EmotionCLIPは、感情誘導型コントラスト学習を用いて、主観的文脈エンコーディングと言語感情キューを通じて、非言語感情キューへの参加を誘導する。
EmotionCLIPは、感情理解におけるデータ不足の一般的な問題に対処し、関連する領域の進歩を促進する。
論文 参考訳(メタデータ) (2023-05-22T21:36:55Z) - VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。
VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
論文 参考訳(メタデータ) (2022-08-24T11:35:51Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - Leveraging Sentiment Analysis Knowledge to Solve Emotion Detection Tasks [11.928873764689458]
本稿では,大規模データセット上での感情検出タスクを改善するために,適応層を融合したトランスフォーマーモデルを提案する。
また,CMU-MOSEIの感情認識には,テキストモダリティのみを用いながら,最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-11-05T20:06:58Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。