論文の概要: MMTF-DES: A Fusion of Multimodal Transformer Models for Desire, Emotion,
and Sentiment Analysis of Social Media Data
- arxiv url: http://arxiv.org/abs/2310.14143v1
- Date: Sun, 22 Oct 2023 00:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:45:45.136512
- Title: MMTF-DES: A Fusion of Multimodal Transformer Models for Desire, Emotion,
and Sentiment Analysis of Social Media Data
- Title(参考訳): MMTF-DES:ソーシャルメディアデータの欲求・感情・感性分析のためのマルチモーダルトランスフォーマーモデルの融合
- Authors: Abdul Aziz, Nihad Karim Chowdhury, Muhammad Ashad Kabir, Abu Nowshed
Chy, Md. Jawad Siddique
- Abstract要約: デザール(Desire)とは、人間の感情や行動を促進する言語的・認知的な側面を構成する人間の願望と願望の集合である。
我々は、人間の欲求、感情、感情を識別するための画像テキストペア設定を備えた統合マルチモーダルトランスフォーマーベースのフレームワークを提案している。
- 参考スコア(独自算出の注目度): 3.604033202771937
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Desire is a set of human aspirations and wishes that comprise verbal and
cognitive aspects that drive human feelings and behaviors, distinguishing
humans from other animals. Understanding human desire has the potential to be
one of the most fascinating and challenging research domains. It is tightly
coupled with sentiment analysis and emotion recognition tasks. It is beneficial
for increasing human-computer interactions, recognizing human emotional
intelligence, understanding interpersonal relationships, and making decisions.
However, understanding human desire is challenging and under-explored because
ways of eliciting desire might be different among humans. The task gets more
difficult due to the diverse cultures, countries, and languages. Prior studies
overlooked the use of image-text pairwise feature representation, which is
crucial for the task of human desire understanding. In this research, we have
proposed a unified multimodal transformer-based framework with image-text pair
settings to identify human desire, sentiment, and emotion. The core of our
proposed method lies in the encoder module, which is built using two
state-of-the-art multimodal transformer models. These models allow us to
extract diverse features. To effectively extract visual and contextualized
embedding features from social media image and text pairs, we conducted joint
fine-tuning of two pre-trained multimodal transformer models:
Vision-and-Language Transformer (ViLT) and Vision-and-Augmented-Language
Transformer (VAuLT). Subsequently, we use an early fusion strategy on these
embedding features to obtain combined diverse feature representations of the
image-text pair. This consolidation incorporates diverse information about this
task, enabling us to robustly perceive the context and image pair from multiple
perspectives.
- Abstract(参考訳): 欲望(英: desire)とは、人間の感情や行動を動かし、他の動物と区別する、言語的、認知的な側面からなる人間の願望と願望のセットである。
人間の欲望を理解することは、最も興味深く挑戦的な研究領域の1つになる可能性がある。
感情分析や感情認識のタスクと密接に結びついている。
これは人間とコンピュータの相互作用の増加、人間の感情的知性認識、対人関係の理解、意思決定に有用である。
しかし、人間の欲望を理解することは、欲望を誘発する方法が人間によって異なる可能性があるため、難解で未熟である。
多様な文化、国、言語のために、タスクはより難しくなります。
以前の研究では、人間の欲求理解のタスクに欠かせない、画像テキストのペアワイズ特徴表現の使用を見落としていた。
本研究では,人間の欲望,感情,感情を識別するために,画像とテキストのペア設定を用いたマルチモーダルトランスフォーマティブフレームワークを提案する。
提案手法のコアは,2つの最先端マルチモーダルトランスモデルを用いて構築されたエンコーダモジュールである。
これらのモデルは多様な特徴を抽出できる。
ソーシャルメディア画像とテキストペアから視覚的・文脈的埋め込み特徴を効果的に抽出するため,視覚・言語変換(ViLT)と視覚・言語変換(VAuLT)の2つの事前学習型マルチモーダルトランスモデルの共同微調整を行った。
次に、これらの埋め込み機能に対する初期融合戦略を用いて、画像テキスト対の多様な特徴表現を得る。
この統合では、このタスクに関するさまざまな情報が組み込まれており、複数の視点からコンテキストとイメージペアを堅牢に認識することができます。
関連論文リスト
- EmoLLM: Multimodal Emotional Understanding Meets Large Language Models [61.179731667080326]
マルチモーダル・大規模言語モデル(MLLM)は、目的とするマルチモーダル認識タスクにおいて顕著な性能を達成している。
しかし、主観的、感情的にニュアンスのあるマルチモーダルコンテンツを解釈する能力はほとんど解明されていない。
EmoLLMは、マルチモーダルな感情理解のための新しいモデルであり、2つのコア技術が組み込まれている。
論文 参考訳(メタデータ) (2024-06-24T08:33:02Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Towards More Human-like AI Communication: A Review of Emergent
Communication Research [0.0]
創発的コミュニケーション(英: Emergent Communication, Emecom)は、自然言語を利用できる人工エージェントの開発を目的とした研究分野である。
本稿では,文献の共通点と,それらが人間同士の相互作用にどのように関係しているかを概説する。
2つのサブカテゴリを特定し、その特性とオープンな課題を強調します。
論文 参考訳(メタデータ) (2023-08-01T14:43:10Z) - IRFL: Image Recognition of Figurative Language [20.472997304393413]
図形は、しばしば複数のモダリティ(例えば、テキストと画像の両方)を通して伝達される。
我々は、図形言語データセットの画像認識を開発する。
マルチモーダルな図形言語理解のためのベンチマークとして,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:55Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Words are all you need? Capturing human sensory similarity with textual
descriptors [12.191617984664683]
人間の類似性判断と言語との関係について検討する。
本稿では,効率的かつ汎用的なタグマイニングのための新しい適応パイプラインを提案する。
テキスト記述子に基づく予測パイプラインは優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-06-08T18:09:19Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。