論文の概要: EmMixformer: Mix transformer for eye movement recognition
- arxiv url: http://arxiv.org/abs/2401.04956v2
- Date: Thu, 9 May 2024 05:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 17:59:24.210415
- Title: EmMixformer: Mix transformer for eye movement recognition
- Title(参考訳): EmMixformer:眼球運動認識のための混合トランス
- Authors: Huafeng Qin, Hongyu Zhu, Xin Jin, Qun Song, Mounim A. El-Yacoubi, Xinbo Gao,
- Abstract要約: 本研究では,眼球運動認識のための時間領域情報と周波数領域情報を抽出するEmMixformerという混合変換器を提案する。
我々は,眼球運動の長期的依存を学習するためにトランスフォーマーを活用する試みを初めて行った。
3つのモジュールは局所的およびグローバルな依存関係の観点から補完的な特徴表現を提供するため、提案したEmMixformerは認識精度を向上させることができる。
- 参考スコア(独自算出の注目度): 43.75206776070943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Eye movement (EM) is a new highly secure biometric behavioral modality that has received increasing attention in recent years. Although deep neural networks, such as convolutional neural network (CNN), have recently achieved promising performance, current solutions fail to capture local and global temporal dependencies within eye movement data. To overcome this problem, we propose in this paper a mixed transformer termed EmMixformer to extract time and frequency domain information for eye movement recognition. To this end, we propose a mixed block consisting of three modules, transformer, attention Long short-term memory (attention LSTM), and Fourier transformer. We are the first to attempt leveraging transformer to learn long temporal dependencies within eye movement. Second, we incorporate the attention mechanism into LSTM to propose attention LSTM with the aim to learn short temporal dependencies. Third, we perform self attention in the frequency domain to learn global features. As the three modules provide complementary feature representations in terms of local and global dependencies, the proposed EmMixformer is capable of improving recognition accuracy. The experimental results on our eye movement dataset and two public eye movement datasets show that the proposed EmMixformer outperforms the state of the art by achieving the lowest verification error.
- Abstract(参考訳): 近年,眼球運動(EM)が注目されている。
畳み込みニューラルネットワーク(CNN)のようなディープニューラルネットワークは、最近、有望なパフォーマンスを達成したが、現在のソリューションでは、眼球運動データ内の局所的およびグローバルな時間的依存関係をキャプチャできない。
本稿では,眼球運動認識のための時間領域情報と周波数領域情報を抽出するEmMixformerという混合変換器を提案する。
そこで本研究では,3つのモジュール,トランス,アテンションロング短期記憶(アテンションLSTM),フーリエ変換器からなる混合ブロックを提案する。
我々は,眼球運動の長期的依存を学習するためにトランスフォーマーを活用する試みを初めて行った。
第2に,注意機構をLSTMに組み込んで,短時間の時間依存性の学習を目的とした注意LSTMを提案する。
第3に,グローバルな特徴を学習するために周波数領域で自己注意を行う。
3つのモジュールは局所的およびグローバルな依存関係の観点から補完的な特徴表現を提供するため、提案したEmMixformerは認識精度を向上させることができる。
眼球運動データセットと2つの公的な眼球運動データセットの実験結果から,提案したEmMixformerは,最小の検証誤差を達成し,最先端技術を上回る性能を示した。
関連論文リスト
- Frequency Guidance Matters: Skeletal Action Recognition by Frequency-Aware Mixed Transformer [18.459822172890473]
骨格の周波数表現を除去するための周波数認識型アテンションモジュールを提案する。
また、周波数特徴を持つ空間特徴を組み込む混合変圧器アーキテクチャも開発している。
FreqMiXFormerは3つの一般的な骨格認識データセットでSOTAを上回っている。
論文 参考訳(メタデータ) (2024-07-17T05:47:27Z) - Convolution and Attention Mixer for Synthetic Aperture Radar Image
Change Detection [41.38587746899477]
合成開口レーダ(SAR)画像変化検出は重要な課題であり,リモートセンシングコミュニティで注目されている。
既存のSAR変化検出法は主に畳み込みニューラルネットワーク(CNN)に基づいている
グローバルアテンションを取り入れたコンボリューション・アテンション・ミキサー(CAMixer)を提案する。
論文 参考訳(メタデータ) (2023-09-21T12:28:23Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Cross-Modal Learning with 3D Deformable Attention for Action Recognition [4.128256616073278]
本稿では,適応的な注意場を持つ行動認識のための新しい3次元変形可能な変換器と時間的学習方式を提案する。
提案した3次元変形可能な変圧器が試験された。
60,.120 FineGYM と PennActionAction のデータセットは、事前訓練された最先端手法よりも良い結果を示した。
論文 参考訳(メタデータ) (2022-12-12T00:31:08Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。