論文の概要: A Transformer-based joint-encoding for Emotion Recognition and Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2006.15955v1
- Date: Mon, 29 Jun 2020 11:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:14:34.738964
- Title: A Transformer-based joint-encoding for Emotion Recognition and Sentiment
Analysis
- Title(参考訳): 感情認識と感情分析のためのトランスフォーマーに基づくジョイントエンコーディング
- Authors: Jean-Benoit Delbrouck and No\'e Tits and Mathilde Brousmiche and
St\'ephane Dupont
- Abstract要約: 本稿では,感情認識・感情分析のための変換器を用いた共同符号化(TBJE)について述べる。
Transformerアーキテクチャを使用するのに加えて、モジュールのコアテンションと1つ以上のモダリティを共同でエンコードするスニース層に依存しています。
- 参考スコア(独自算出の注目度): 8.927538538637783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding expressed sentiment and emotions are two crucial factors in
human multimodal language. This paper describes a Transformer-based
joint-encoding (TBJE) for the task of Emotion Recognition and Sentiment
Analysis. In addition to use the Transformer architecture, our approach relies
on a modular co-attention and a glimpse layer to jointly encode one or more
modalities. The proposed solution has also been submitted to the ACL20: Second
Grand-Challenge on Multimodal Language to be evaluated on the CMU-MOSEI
dataset. The code to replicate the presented experiments is open-source:
https://github.com/jbdel/MOSEI_UMONS.
- Abstract(参考訳): 表現された感情と感情を理解することは、人間のマルチモーダル言語において2つの重要な要素である。
本稿では,感情認識・感情分析のための変換器を用いた共同符号化(TBJE)について述べる。
Transformerアーキテクチャの使用に加えて、モジュールのコアテンションと1つ以上のモダリティを共同でエンコードするスニース層に依存しています。
提案されたソリューションは、CMU-MOSEIデータセットで評価するために、ACL20: Second Grand-Challenge on Multimodal Languageにも提出されている。
提示された実験を再現するコードは、オープンソースである。
関連論文リスト
- Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model [5.301672905886949]
本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。
MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:17:18Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Multi-Modal Emotion Recognition by Text, Speech and Video Using
Pretrained Transformers [1.0152838128195467]
3つの入力モダリティ、すなわちテキスト、オーディオ(音声)、ビデオを使用してマルチモーダル特徴ベクトルを生成する。
これらのモダリティごとに特徴を生成するために、微調整付き事前学習トランスフォーマーモデルを用いる。
特徴ベクトルを結合して特徴レベルの融合とサポートベクトルマシンを用いた分類を組み合わせた最良のモデルは、75.42%の精度を達成する。
論文 参考訳(メタデータ) (2024-02-11T23:27:24Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - Brain encoding models based on multimodal transformers can transfer
across language and vision [60.72020004771044]
我々は、マルチモーダルトランスフォーマーの表現を用いて、fMRI応答を物語や映画に転送できるエンコーディングモデルを訓練した。
1つのモードに対する脳の反応に基づいて訓練された符号化モデルは、他のモードに対する脳の反応をうまく予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-20T17:38:44Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Modulated Fusion using Transformer for Linguistic-Acoustic Emotion
Recognition [7.799182201815763]
本稿では,感情認識と感情分析のタスクに軽量で強力なソリューションを提供することを目的とする。
我々のモチベーションは、トランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。
論文 参考訳(メタデータ) (2020-10-05T14:46:20Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。