論文の概要: A Multimodal Fusion Network For Student Emotion Recognition Based on
Transformer and Tensor Product
- arxiv url: http://arxiv.org/abs/2403.08511v1
- Date: Wed, 13 Mar 2024 13:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:10:56.202286
- Title: A Multimodal Fusion Network For Student Emotion Recognition Based on
Transformer and Tensor Product
- Title(参考訳): 学生感情認識のためのマルチモーダルフュージョンネットワーク
変圧器とテンソル製品
- Authors: Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma
- Abstract要約: 本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。
このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。
改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。
- 参考スコア(独自算出の注目度): 4.858083660287673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there have been frequent incidents of foreign objects
intruding into railway and Airport runways. These objects can include
pedestrians, vehicles, animals, and debris. This paper introduces an improved
YOLOv5 architecture incorporating FasterNet and attention mechanisms to enhance
the detection of foreign objects on railways and Airport runways. This study
proposes a new dataset, AARFOD (Aero and Rail Foreign Object Detection), which
combines two public datasets for detecting foreign objects in aviation and
railway systems. The dataset aims to improve the recognition capabilities of
foreign object targets. Experimental results on this large dataset have
demonstrated significant performance improvements of the proposed model over
the baseline YOLOv5 model, reducing computational requirements. improved YOLO
model shows a significant improvement in precision by 1.2%, recall rate by
1.0%, and mAP@.5 by 0.6%, while mAP@.5-.95 remained unchanged. The parameters
were reduced by approximately 25.12%, and GFLOPs were reduced by about 10.63%.
In the ablation experiment, it is found that the FasterNet module can
significantly reduce the number of parameters of the model, and the reference
of the attention mechanism can slow down the performance loss caused by
lightweight.
- Abstract(参考訳): 近年、鉄道や空港の滑走路に異物が侵入する事件が頻発している。
これらのオブジェクトには、歩行者、車両、動物、デブリが含まれる。
本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。
本研究では,航空・鉄道システムにおける異物検出のための2つの公開データセットを組み合わせたAARFOD(Aero and Rail Foreign Object Detection)を提案する。
このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。
この大規模データセットに対する実験結果から,提案モデルがベースライン YOLOv5 モデルよりも大幅に性能が向上し,計算要求の低減が図られた。
改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。
パラメータは約25.12%削減され、GFLOPは約10.63%削減された。
アブレーション実験では,FasterNetモジュールはモデルのパラメータ数を著しく削減し,アテンション機構の参照により軽量化による性能損失を低減できることがわかった。
関連論文リスト
- Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。
特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。
その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文 参考訳(メタデータ) (2024-05-22T23:09:49Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Coupled generator decomposition for fusion of electro- and magnetoencephalography data [1.7102695043811291]
データ融合モデリングは、ソース固有の変数を考慮に入れながら、多様なデータソースにまたがる共通の特徴を識別することができる。
本稿では、テキスト結合型ジェネレータ分解の概念を導入し、データ融合のためのスパース主成分分析をいかに一般化するかを示す。
論文 参考訳(メタデータ) (2024-03-02T12:09:16Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-09-07T06:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。