論文の概要: xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network
- arxiv url: http://arxiv.org/abs/2410.05074v1
- Date: Mon, 7 Oct 2024 14:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:28:18.674706
- Title: xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network
- Title(参考訳): xLSTM-FER:拡張視覚長短期記憶ネットワークによる生徒表現認識の強化
- Authors: Qionghao Huang, Jili Chen,
- Abstract要約: 本稿では、拡張長短期記憶(xLSTM)から派生した新しいアーキテクチャであるxLSTM-FERを紹介する。
xLSTM-FERは入力画像を一連のパッチに分割して処理し、これらのパッチを処理するためにxLSTMブロックのスタックを活用する。
CK+、RAF-DF、FERplusの実験は、発現認識タスクにおけるxLSTM-FERの可能性を示している。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Student expression recognition has become an essential tool for assessing learning experiences and emotional states. This paper introduces xLSTM-FER, a novel architecture derived from the Extended Long Short-Term Memory (xLSTM), designed to enhance the accuracy and efficiency of expression recognition through advanced sequence processing capabilities for student facial expression recognition. xLSTM-FER processes input images by segmenting them into a series of patches and leveraging a stack of xLSTM blocks to handle these patches. xLSTM-FER can capture subtle changes in real-world students' facial expressions and improve recognition accuracy by learning spatial-temporal relationships within the sequence. Experiments on CK+, RAF-DF, and FERplus demonstrate the potential of xLSTM-FER in expression recognition tasks, showing better performance compared to state-of-the-art methods on standard datasets. The linear computational and memory complexity of xLSTM-FER make it particularly suitable for handling high-resolution images. Moreover, the design of xLSTM-FER allows for efficient processing of non-sequential inputs such as images without additional computation.
- Abstract(参考訳): 学生の表情認識は、学習経験や感情状態を評価する上で欠かせないツールとなっている。
本稿では,xLSTM-FERを提案する。xLSTM(Extended Long Short-Term Memory)は,学生の表情認識のための高度なシーケンス処理機能を通じて,表現認識の精度と効率を高めるために設計された,拡張長短期記憶(exended Long Short-Term Memory, xLSTM)から派生した新しいアーキテクチャである。
xLSTM-FERは入力画像を一連のパッチに分割して処理し、これらのパッチを処理するためにxLSTMブロックのスタックを活用する。
xLSTM-FERは実世界の学生の表情の微妙な変化を捉え、シーケンス内の空間的・時間的関係を学習することで認識精度を向上させることができる。
CK+、RAF-DF、FERplusの実験は、表現認識タスクにおけるxLSTM-FERの可能性を示し、標準データセットの最先端手法よりも優れた性能を示している。
xLSTM-FERの線形計算とメモリの複雑さは、高解像度画像の処理に特に適している。
さらに、xLSTM-FERの設計により、余分な計算なしで画像などの非逐次入力を効率的に処理できる。
関連論文リスト
- Enhancing Fluorescence Lifetime Parameter Estimation Accuracy with Differential Transformer Based Deep Learning Model Incorporating Pixelwise Instrument Response Function [0.3441582801949978]
本稿では,最新の微分変換器エンコーダ・デコーダアーキテクチャであるMFliNetを用いた新しいDLアーキテクチャを提案する。
本モデルの性能は, 慎重に設計し, 複雑な組織模倣ファントムと前臨床内癌異種移植実験により実証した。
論文 参考訳(メタデータ) (2024-11-25T20:03:41Z) - Improvement and Implementation of a Speech Emotion Recognition Model Based on Dual-Layer LSTM [0.40964539027092917]
本稿では,LSTM層を追加することで,既存の音声感情認識モデルを構築する。
2層LSTMネットワークを介して音声シーケンス内の長期的依存関係をキャプチャすることで、複雑な感情パターンをより正確に認識し分類することができる。
論文 参考訳(メタデータ) (2024-11-14T05:05:36Z) - Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models [42.55786269051626]
本稿では,高解像度データを効率的に処理するために,ViTライクなモデルを拡張した新しい状態空間モデル (SSM) ベースのマスク付きオートエンコーダを提案する。
本稿では,入力ボリューム内の特定の領域に対応する潜時特徴の直接可視化を可能にする潜時空間マッピング手法を提案する。
本結果は,SSMに基づく自己教師型学習が,効率と解釈可能性を組み合わせた放射能解析を変換する可能性を強調した。
論文 参考訳(メタデータ) (2024-09-12T04:36:50Z) - Unlocking the Power of LSTM for Long Term Time Series Forecasting [27.245021350821638]
本稿では, sLSTM 上に実装したP-sLSTM という単純なアルゴリズムを提案する。
これらの改良により、TSFにおけるsLSTMの性能が大幅に向上し、最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-08-19T13:59:26Z) - Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T08:01:28Z) - OpticalRS-4M: Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、公開可能なRSデータセットを収集し、排除、スライシング、復号化によってそれらを処理することで、OptoRS-4Mという高品質なデータセットをキュレートした。
実験により,OCR-4Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Enhancing Length Extrapolation in Sequential Models with Pointer-Augmented Neural Memory [66.88278207591294]
本稿では,新しいより長いデータ列に対して,ニューラルネットワークによるシンボル処理の理解と適用を支援するために,Pointer-Augmented Neural Memory (PANM)を提案する。
PANMは、新しい物理アドレスとポインタ操作技術を使用して、人間とコンピュータのシンボル処理能力を模倣する外部のニューラルメモリを統合する。
論文 参考訳(メタデータ) (2024-04-18T03:03:46Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。