Fugu-MT 論文翻訳(概要): A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product

論文の概要: A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product

arxiv url: http://arxiv.org/abs/2403.08511v1
Date: Wed, 13 Mar 2024 13:16:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 14:10:56.202286
Title: A Multimodal Fusion Network For Student Emotion Recognition Based on Transformer and Tensor Product
Title（参考訳）: 学生感情認識のためのマルチモーダルフュージョンネットワーク変圧器とテンソル製品
Authors: Ao Xiang, Zongqing Qi, Han Wang, Qin Yang, Danqing Ma
Abstract要約: 本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。
参考スコア（独自算出の注目度）: 4.858083660287673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, there have been frequent incidents of foreign objects intruding into railway and Airport runways. These objects can include pedestrians, vehicles, animals, and debris. This paper introduces an improved YOLOv5 architecture incorporating FasterNet and attention mechanisms to enhance the detection of foreign objects on railways and Airport runways. This study proposes a new dataset, AARFOD (Aero and Rail Foreign Object Detection), which combines two public datasets for detecting foreign objects in aviation and railway systems. The dataset aims to improve the recognition capabilities of foreign object targets. Experimental results on this large dataset have demonstrated significant performance improvements of the proposed model over the baseline YOLOv5 model, reducing computational requirements. improved YOLO model shows a significant improvement in precision by 1.2%, recall rate by 1.0%, and mAP@.5 by 0.6%, while mAP@.5-.95 remained unchanged. The parameters were reduced by approximately 25.12%, and GFLOPs were reduced by about 10.63%. In the ablation experiment, it is found that the FasterNet module can significantly reduce the number of parameters of the model, and the reference of the attention mechanism can slow down the performance loss caused by lightweight.
Abstract（参考訳）: 近年、鉄道や空港の滑走路に異物が侵入する事件が頻発している。これらのオブジェクトには、歩行者、車両、動物、デブリが含まれる。本稿では,FasterNetを取り入れたYOLOv5アーキテクチャの改良と,鉄道や空港の滑走路における異物検出の促進を目的としたアテンション機構を提案する。本研究では,航空・鉄道システムにおける異物検出のための2つの公開データセットを組み合わせたAARFOD(Aero and Rail Foreign Object Detection)を提案する。このデータセットは、外部オブジェクトターゲットの認識能力を改善することを目的としている。この大規模データセットに対する実験結果から,提案モデルがベースライン YOLOv5 モデルよりも大幅に性能が向上し,計算要求の低減が図られた。改良されたYOLOモデルは精度が1.2%、リコールレートが1.0%、mAP@.5が0.6%向上し、mAP@.5-.95は変わらなかった。パラメータは約25.12%削減され、GFLOPは約10.63%削減された。アブレーション実験では,FasterNetモジュールはモデルのパラメータ数を著しく削減し,アテンション機構の参照により軽量化による性能損失を低減できることがわかった。

関連論文リスト

NSF-MAP: Neurosymbolic Multimodal Fusion for Robust and Interpretable Anomaly Prediction in Assembly Pipelines [0.0]
本稿では,組立パイプラインにおける多モード異常予測のためのニューロシンボリックAIと融合に基づくアプローチを提案する。決定レベル融合技術を利用した時系列および画像ベース融合モデルを提案する。その結果,伝達学習を用いたニューロシンボリックAIベースの融合アプローチは,時系列データと画像データの相補的強みを効果的に活用できることが示唆された。
論文参考訳（メタデータ） (2025-05-09T16:50:42Z)
Multimodal Magic Elevating Depression Detection with a Fusion of Text and Audio Intelligence [4.92323103166693]
本研究では,抑うつ分類の精度を高めるために,教師-学生アーキテクチャに基づく革新的なマルチモーダル融合モデルを提案する。本設計モデルは,マルチヘッドアテンション機構と重み付きマルチモーダルトランスファー学習を導入することで,特徴融合とモダリティウェイトアロケーションにおける従来の手法の限界に対処する。アブレーション実験により,提案モデルがF1スコアの99.1%をテストセットで達成し,単調な手法や従来の手法を著しく上回った。
論文参考訳（メタデータ） (2025-01-28T09:30:29Z)
Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文参考訳（メタデータ） (2024-07-01T20:25:20Z)
FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。 FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2024-06-05T13:54:28Z)
Application of Multimodal Fusion Deep Learning Model in Disease Recognition [14.655086303102575]
本稿では,従来の単一モーダル認識手法の欠点を克服する,革新的なマルチモーダル融合深層学習手法を提案する。特徴抽出段階では、画像ベース、時間的、構造化されたデータソースから高度な特徴を抽出するために最先端のディープラーニングモデルを適用する。その結果, マルチモーダル融合モデルにおいて, 複数の評価指標にまたがる大きな利点が示された。
論文参考訳（メタデータ） (2024-05-22T23:09:49Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Coupled generator decomposition for fusion of electro- and magnetoencephalography data [1.7102695043811291]
データ融合モデリングは、ソース固有の変数を考慮に入れながら、多様なデータソースにまたがる共通の特徴を識別することができる。本稿では、テキスト結合型ジェネレータ分解の概念を導入し、データ融合のためのスパース主成分分析をいかに一般化するかを示す。
論文参考訳（メタデータ） (2024-03-02T12:09:16Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文参考訳（メタデータ） (2023-05-25T15:26:13Z)
Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文参考訳（メタデータ） (2022-07-07T14:04:42Z)
Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (2021-12-27T10:00:16Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
TransModality: An End2End Fusion Method with Transformer for Multimodal Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文参考訳（メタデータ） (2020-09-07T06:11:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。