論文の概要: A Multimodal Fusion Network For Student Emotion Recognition Based on
Transformer and Tensor Product
- arxiv url: http://arxiv.org/abs/2403.08511v1
- Date: Wed, 13 Mar 2024 13:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:10:56.202286
- Title: A Multimodal Fusion Network For Student Emotion Recognition Based on
Transformer and Tensor Product
- Title(参考訳): 学生感情認識のためのマルチモーダルフュージョンネットワーク
変圧器とテンソル製品
- Authors: Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma
- Abstract要約: 本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。
このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。
改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。
- 参考スコア(独自算出の注目度): 4.858083660287673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been frequent incidents of foreign objects
intruding into railway and Airport runways. These objects can include
pedestrians, vehicles, animals, and debris. This paper introduces an improved
YOLOv5 architecture incorporating FasterNet and attention mechanisms to enhance
the detection of foreign objects on railways and Airport runways. This study
proposes a new dataset, AARFOD (Aero and Rail Foreign Object Detection), which
combines two public datasets for detecting foreign objects in aviation and
railway systems. The dataset aims to improve the recognition capabilities of
foreign object targets. Experimental results on this large dataset have
demonstrated significant performance improvements of the proposed model over
the baseline YOLOv5 model, reducing computational requirements. improved YOLO
model shows a significant improvement in precision by 1.2%, recall rate by
1.0%, and mAP@.5 by 0.6%, while mAP@.5-.95 remained unchanged. The parameters
were reduced by approximately 25.12%, and GFLOPs were reduced by about 10.63%.
In the ablation experiment, it is found that the FasterNet module can
significantly reduce the number of parameters of the model, and the reference
of the attention mechanism can slow down the performance loss caused by
lightweight.
- Abstract(参考訳): 近年、鉄道や空港の滑走路に異物が侵入する事件が頻発している。
これらのオブジェクトには、歩行者、車両、動物、デブリが含まれる。
本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。
本研究では,航空・鉄道システムにおける異物検出のための2つの公開データセットを組み合わせたAARFOD(Aero and Rail Foreign Object Detection)を提案する。
このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。
この大規模データセットに対する実験結果から,提案モデルがベースライン YOLOv5 モデルよりも大幅に性能が向上し,計算要求の低減が図られた。
改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。
パラメータは約25.12%削減され、GFLOPは約10.63%削減された。
アブレーション実験では,FasterNetモジュールはモデルのパラメータ数を著しく削減し,アテンション機構の参照により軽量化による性能損失を低減できることがわかった。
関連論文リスト
- Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Coupled generator decomposition for fusion of electro- and magnetoencephalography data [1.7102695043811291]
データ融合モデリングは、ソース固有の変数を考慮に入れながら、多様なデータソースにまたがる共通の特徴を識別することができる。
本稿では、テキスト結合型ジェネレータ分解の概念を導入し、データ融合のためのスパース主成分分析をいかに一般化するかを示す。
論文 参考訳(メタデータ) (2024-03-02T12:09:16Z) - HEALNet -- Hybrid Multi-Modal Fusion for Heterogeneous Biomedical Data [12.109041184519281]
本稿では, フレキシブルなマルチモーダル融合アーキテクチャであるHybrid Early-fusion Attention Learning Network (HEALNet)を提案する。
The Cancer Genome Atlas (TCGA) の4つの癌コホートにおける全スライド画像と多モードデータの多モード生存解析を行った。
HEALNetは最先端のパフォーマンスを実現し、ユニモーダルベースラインと最近のマルチモーダルベースラインの両方を大幅に改善した。
論文 参考訳(メタデータ) (2023-11-15T17:06:26Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-09-07T06:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。