論文の概要: Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AI
- arxiv url: http://arxiv.org/abs/2403.17683v2
- Date: Sun, 31 Mar 2024 14:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:15:05.967698
- Title: Solution for Emotion Prediction Competition of Workshop on Emotionally and Culturally Intelligent AI
- Title(参考訳): 感情・文化知能AIワークショップの感情予測競争への解法
- Authors: Shengdong Xu, Zhouyang Chi, Yang Yang,
- Abstract要約: 感情・文化特化プロンプトを用いた単一マルチモーダルという,シンプルで効果的な手法を提案する。
最終テストでは0.627で1位にランクインした。
- 参考スコア(独自算出の注目度): 3.2899630403451985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report provide a detailed description of the method that we explored and proposed in the WECIA Emotion Prediction Competition (EPC), which predicts a person's emotion through an artistic work with a comment. The dataset of this competition is ArtELingo, designed to encourage work on diversity across languages and cultures. The dataset has two main challenges, namely modal imbalance problem and language-cultural differences problem. In order to address this issue, we propose a simple yet effective approach called single-multi modal with Emotion-Cultural specific prompt(ECSP), which focuses on using the single modal message to enhance the performance of multimodal models and a well-designed prompt to reduce cultural differences problem. To clarify, our approach contains two main blocks: (1)XLM-R\cite{conneau2019unsupervised} based unimodal model and X$^2$-VLM\cite{zeng2022x} based multimodal model (2) Emotion-Cultural specific prompt. Our approach ranked first in the final test with a score of 0.627.
- Abstract(参考訳): 本報告では, WECIA感情予測コンペティション(EPC)において, 芸術作品を通して人の感情を予測する手法について解説し, 提案した方法について述べる。
このコンペティションのデータセットはArtELingoで、言語や文化の多様性に関する作業を促進するために設計されている。
このデータセットには、モーダル不均衡問題と言語と文化の違い問題という2つの大きな課題がある。
この問題に対処するために,マルチモーダルモデルの性能向上を目的とした単一モーダルメッセージと,文化的相違を解消するための優れたプロンプトに着目した,シングルマルチモーダル(ECSP)と呼ばれるシンプルなアプローチを提案する。
提案手法は,(1)XLM-R\cite{conneau2019unsupervised} と X$^2$-VLM\cite{zeng2022x} のマルチモーダルモデル(2)感情文化固有のプロンプトを含む。
最終テストでは0.627で1位にランクインした。
関連論文リスト
- MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis [53.012111671763776]
そこで本研究では、7,145枚の肖像画からなる総合的なベンチマークであるMEMO-Benchを紹介した。
以上の結果から,既存のT2Iモデルは負のモデルよりも肯定的な感情を生成するのに効果的であることが示唆された。
MLLMは人間の感情の識別と認識に一定の効果を示すが、人間のレベルの正確さには欠ける。
論文 参考訳(メタデータ) (2024-11-18T02:09:48Z) - Early Joint Learning of Emotion Information Makes MultiModal Model Understand You Better [9.378013909890374]
マルチモーダル感情認識チャレンジ(MER2024)における感情認識のためのソリューションを提案する。
音声とテキスト間のモーダル競争を緩和するために、我々は早期融合戦略を採用する。
MER2024-SEMIとMER2024-NOISEの両方でtextbf2 をランク付けし,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-09-12T05:05:34Z) - Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:17:18Z) - LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task [3.489826905722736]
SemEval 2024は会話におけるマルチモーダル感情原因分析のタスクを導入している。
本稿では,この課題を発話ラベリングとシーケンスラベリングの問題として扱うモデルを提案する。
このタスクの公式リーダーボードでは、私たちのアーキテクチャは8位にランクされ、リーダーボードのF1スコアは0.1759でした。
論文 参考訳(メタデータ) (2024-04-02T16:32:49Z) - MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models [13.137392771279742]
本稿では,SemEval 2024 Task 3 の Subtask 2 に対して,会話におけるマルチモーダル感情の原因分析について提案する。
本稿では,テキスト,音声,視覚的モダリティを統合した新しいマルチモーダル感情認識・マルチモーダル感情原因抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:16:02Z) - JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models [0.9736758288065405]
本稿では,SemEval-2024タスク3におけるシステム開発について述べる:「会話におけるマルチモーダル感情原因分析の競争」
人間の会話における感情を効果的に捉えるには、テキスト、オーディオ、ビデオなどの複数のモダリティを統合する必要がある。
提案手法は2段階の枠組みでこれらの課題に対処する。
論文 参考訳(メタデータ) (2024-03-05T12:07:18Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Audio-Oriented Multimodal Machine Comprehension: Task, Dataset and Model [51.42415340921237]
我々は2つのモード(音声とテキスト)を融合させる動的モダリティ・イントラモダリティ・アテンション(DIIA)モデルを提案する。
さらに,マルチモーダルMCモデルを用いて,テキストや音声のみに基づいて,回答を正確に予測できるマルチモーダル知識蒸留(MKD)モジュールを開発した。
論文 参考訳(メタデータ) (2021-07-04T08:35:20Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。