論文の概要: Learning Vision Transformer with Squeeze and Excitation for Facial
Expression Recognition
- arxiv url: http://arxiv.org/abs/2107.03107v2
- Date: Thu, 8 Jul 2021 10:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 10:27:10.544048
- Title: Learning Vision Transformer with Squeeze and Excitation for Facial
Expression Recognition
- Title(参考訳): 表情認識のためのスクイーズと励磁を用いた学習視覚トランスフォーマ
- Authors: Mouath Aouayeb, Wassim Hamidouche, Catherine Soladie, Kidiyo Kpalma,
Renaud Seguier
- Abstract要約: 我々は、FERタスクのためのSqueeze and Excitation(SE)ブロックと共同で視覚変換器を学ぶことを提案する。
提案手法は、CK+, JAFFE,RAF-DB, SFEWなど、利用可能なさまざまなFERデータベース上で評価される。
実験により,本モデルはCK+およびSFEWの最先端手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 10.256620178727884
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As various databases of facial expressions have been made accessible over the
last few decades, the Facial Expression Recognition (FER) task has gotten a lot
of interest. The multiple sources of the available databases raised several
challenges for facial recognition task. These challenges are usually addressed
by Convolution Neural Network (CNN) architectures. Different from CNN models, a
Transformer model based on attention mechanism has been presented recently to
address vision tasks. One of the major issue with Transformers is the need of a
large data for training, while most FER databases are limited compared to other
vision applications. Therefore, we propose in this paper to learn a vision
Transformer jointly with a Squeeze and Excitation (SE) block for FER task. The
proposed method is evaluated on different publicly available FER databases
including CK+, JAFFE,RAF-DB and SFEW. Experiments demonstrate that our model
outperforms state-of-the-art methods on CK+ and SFEW and achieves competitive
results on JAFFE and RAF-DB.
- Abstract(参考訳): 過去数十年間、表情の様々なデータベースがアクセスできるようになったため、顔表情認識(FER)タスクは大きな関心を集めている。
利用可能なデータベースの複数のソースは、顔認識タスクのいくつかの課題を提起した。
これらの課題は通常、畳み込みニューラルネットワーク(CNN)アーキテクチャによって対処される。
CNNモデルとは異なる、注意機構に基づくトランスフォーマーモデルが最近提示され、ビジョンタスクに対処している。
トランスフォーマーの大きな問題の1つは、トレーニングに大規模なデータを必要とすることだが、ferデータベースのほとんどは、他のビジョンアプリケーションに比べて制限されている。
そこで本稿では,ferタスクのためのSqueeze and Excitation(SE)ブロックと共同で視覚変換器の学習を提案する。
提案手法は、CK+, JAFFE,RAF-DB, SFEWなど、利用可能なさまざまなFERデータベース上で評価される。
実験により,本モデルはCK+およびSFEWの最先端手法より優れ,JSFFEとRAF-DBの競争結果が得られた。
関連論文リスト
- Data Augmentation and Transfer Learning Approaches Applied to Facial
Expressions Recognition [0.3481985817302898]
本稿では,認識タスクの性能を向上させる新しいデータ拡張手法を提案する。
我々は、感情タイプごとに新しい合成画像を生成することができるGANモデルをスクラッチから構築する。
拡張データセットでは、異なるアーキテクチャで事前訓練された畳み込みニューラルネットワークを微調整します。
論文 参考訳(メタデータ) (2024-02-15T14:46:03Z) - POSTER: A Pyramid Cross-Fusion Transformer Network for Facial Expression
Recognition [11.525573321175925]
顔の表情認識(FER)はコンピュータビジョンにおいて重要な課題であり、人間とコンピュータのインタラクション、教育、医療、オンラインモニタリングといった分野に実践的な応用がある。
特に大きな問題は、クラス間類似性、クラス内類似性、スケール感度の3つである。
本稿では,これら3つの問題を総括的に解決することを目的とした2ストリームのピラミッド crOss-fuSion TransformER ネットワーク (POSTER) を提案する。
論文 参考訳(メタデータ) (2022-04-08T14:01:41Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - Face Transformer for Recognition [67.02323570055894]
顔認識におけるトランスフォーマーモデルの性能について検討する。
モデルは大規模な顔認識データベースMS-Celeb-1Mで訓練される。
我々は,Transformer モデルが CNN と同等の性能を示し,パラメータ数とMAC の類似性を実証した。
論文 参考訳(メタデータ) (2021-03-27T03:53:29Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - DFEW: A Large-Scale Database for Recognizing Dynamic Facial Expressions
in the Wild [22.305429904593126]
そこで我々は,数千本の映画から16,000本以上のビデオクリップを収録した大規模動的表情データベースDFEWを提案する。
次に,表現クラスタ化時空間特徴学習フレームワークを提案する。
第3に、提案したEC-STFLと同様に、多くの深い特徴学習手法を用いて、DFEWの広範なベンチマーク実験を行う。
論文 参考訳(メタデータ) (2020-08-13T14:10:05Z) - The FaceChannel: A Light-weight Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
FER自動化のための現在の最先端モデルは、訓練が難しい非常に深いニューラルネットワークに基づいている。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
私たちは、FaceChannelが、FERの現在の最先端技術と比較して、同等の、たとえそうでなくても、パフォーマンスを実現する方法を示します。
論文 参考訳(メタデータ) (2020-04-17T12:03:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。