論文の概要: NUAA-QMUL-AIIT at Memotion 3: Multi-modal Fusion with
Squeeze-and-Excitation for Internet Meme Emotion Analysis
- arxiv url: http://arxiv.org/abs/2302.08326v1
- Date: Thu, 16 Feb 2023 14:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 13:39:15.220139
- Title: NUAA-QMUL-AIIT at Memotion 3: Multi-modal Fusion with
Squeeze-and-Excitation for Internet Meme Emotion Analysis
- Title(参考訳): NUAA-QMUL-AIIT at Memotion 3: Multi-modal Fusion with Squeeze-and-Excitation for Internet Meme Emotion Analysis
- Authors: Xiaoyu Guo, Jing Ma, Arkaitz Zubiaga
- Abstract要約: 本稿では,ミーム感情分析におけるミーム3共有タスクにおけるNUAA-QMUL-AIITチームの参加について述べる。
我々は,新しいマルチモーダル融合法であるSqueeze-and-Excitation Fusion(SEFusion)を提案し,それをミームの感情分類システムに組み込む。
- 参考スコア(独自算出の注目度): 18.86848589288164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the participation of our NUAA-QMUL-AIIT team in the
Memotion 3 shared task on meme emotion analysis. We propose a novel multi-modal
fusion method, Squeeze-and-Excitation Fusion (SEFusion), and embed it into our
system for emotion classification in memes. SEFusion is a simple fusion method
that employs fully connected layers, reshaping, and matrix multiplication.
SEFusion learns a weight for each modality and then applies it to its own
modality feature. We evaluate the performance of our system on the three
Memotion 3 sub-tasks. Among all participating systems in this Memotion 3 shared
task, our system ranked first on task A, fifth on task B, and second on task C.
Our proposed SEFusion provides the flexibility to fuse any features from
different modalities. The source code for our method is published on
https://github.com/xxxxxxxxy/memotion3-SEFusion.
- Abstract(参考訳): 本稿では,ミーム感情分析におけるミーム3共有タスクにおけるNUAA-QMUL-AIITチームの参加について述べる。
我々は,新しいマルチモーダル融合法であるSqueeze-and-Excitation Fusion (SEFusion)を提案し,それをミームの感情分類システムに組み込む。
sefusion は完全連結層、再構成および行列乗算を用いた単純な核融合法である。
セフュージョンは各モダリティの重みを学習し、それを自身のモダリティ特徴に適用する。
3つのmemotion 3サブタスクにおけるシステムの性能評価を行った。
このmemotion 3共有タスクに参加するすべてのシステムの中で、我々のシステムはタスクaで第1位、タスクbで第5位、タスクcで第2位にランク付けしました。
このメソッドのソースコードはhttps://github.com/xxxxxxxxy/memotion3-sefusionで公開されている。
関連論文リスト
- Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition [16.97833694961584]
Foal-Netは、モダリティ融合の有効性を高めるように設計されている。
これには、オーディオビデオの感情アライメントと、モーダルな感情ラベルマッチングという2つの補助的なタスクが含まれる。
実験の結果,Foal-Netは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-18T11:05:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection [130.394884412296]
我々は,イノベーティブなマルチモーダル融合フレームワークであるIS-Fusionを提案する。
インスタンスレベルのコンテキスト情報とシーンレベルのコンテキスト情報をキャプチャする。
Is-Fusionは基本的に、BEVシーンレベルの融合のみに焦点を当てた既存のアプローチとは異なる。
論文 参考訳(メタデータ) (2024-03-22T14:34:17Z) - TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven
Image Fusion Network [2.7387720378113554]
我々は、TSJNetと呼ばれるターゲットおよびセマンティック・アウェアネス駆動型核融合ネットワークを導入する。
一連の構造に配置された核融合、検出、セグメンテーションを含む。
視覚的に快く融合した結果を生成することができ、それぞれ2.84%と7.47%のオブジェクト検出とセグメンテーションのmAP @0.5とmIoUが平均的に増加する。
論文 参考訳(メタデータ) (2024-02-02T08:37:38Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Holistic Interaction Transformer Network for Action Detection [15.667833703317124]
HIT"ネットワークは、RGBストリームとポーズストリームからなる総合的なバイモーダルフレームワークである。
提案手法は,J-HMDB,UCF101-24,MultiSportsデータセットにおいて,従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-23T10:19:37Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - DSC IIT-ISM at SemEval-2020 Task 8: Bi-Fusion Techniques for Deep Meme
Emotion Analysis [5.259920715958942]
本稿では,SemEval 2020における感情分析共有タスクについて述べる。
本稿では,感情とユーモアの分類タスクに対するモーダル間の依存性を平均化するバイモーダル融合技術を用いたシステムを提案する。
論文 参考訳(メタデータ) (2020-07-28T17:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。