論文の概要: Quaternion Orthogonal Transformer for Facial Expression Recognition in
the Wild
- arxiv url: http://arxiv.org/abs/2303.07831v1
- Date: Tue, 14 Mar 2023 12:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:22:25.960226
- Title: Quaternion Orthogonal Transformer for Facial Expression Recognition in
the Wild
- Title(参考訳): 野生における表情認識のための四元直交変換器
- Authors: Yu Zhou, Liyuan Guo, Lianghai Jin
- Abstract要約: 特徴分類のための四元視覚変換器(Q-ViT)を開発した。
3つの組込みFERデータセットの実験結果から、提案したQOTがいくつかの最先端モデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 3.2898396463438995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression recognition (FER) is a challenging topic in artificial
intelligence. Recently, many researchers have attempted to introduce Vision
Transformer (ViT) to the FER task. However, ViT cannot fully utilize emotional
features extracted from raw images and requires a lot of computing resources.
To overcome these problems, we propose a quaternion orthogonal transformer
(QOT) for FER. Firstly, to reduce redundancy among features extracted from
pre-trained ResNet-50, we use the orthogonal loss to decompose and compact
these features into three sets of orthogonal sub-features. Secondly, three
orthogonal sub-features are integrated into a quaternion matrix, which
maintains the correlations between different orthogonal components. Finally, we
develop a quaternion vision transformer (Q-ViT) for feature classification. The
Q-ViT adopts quaternion operations instead of the original operations in ViT,
which improves the final accuracies with fewer parameters. Experimental results
on three in-the-wild FER datasets show that the proposed QOT outperforms
several state-of-the-art models and reduces the computations.
- Abstract(参考訳): 表情認識(FER)は人工知能における課題である。
近年、多くの研究者がFERタスクにViT(Vision Transformer)を導入しようと試みている。
しかし、ViTは生画像から抽出した感情的特徴を完全に活用できず、多くのコンピューティングリソースを必要とする。
これらの問題を克服するために, fer の四元直交変圧器 (qot) を提案する。
まず,事前訓練したResNet-50から抽出した特徴の冗長性を低減するために,これらの特徴を3組の直交サブ機能に分解・コンパクト化する。
次に、3つの直交部分特徴を四元数行列に統合し、異なる直交成分間の相関を維持する。
最後に,特徴分類のための四元視覚変換器(Q-ViT)を開発した。
Q-ViTは、ViTの元々の操作の代わりに四元演算を採用し、パラメータが少なく最終的な精度を改善する。
3つの組込みFERデータセットの実験結果から、提案したQOTはいくつかの最先端モデルを上回る性能を示し、計算量を削減している。
関連論文リスト
- ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions [4.554319452683839]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Key-Value Transformer [47.64219291655723]
キー値定式化(KV)は2次元位置符号化をアテンション行列に組み込んだ非対称版とともに対称アテンションマップを生成する。
実験には3つのタスクタイプ - 合成(リストの反転やソートなど)、視覚(mnistまたはcifar classification)、NLP - が含まれる。
論文 参考訳(メタデータ) (2023-05-28T20:26:06Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Contrastive Triple Extraction with Generative Transformer [72.21467482853232]
生成変換器を用いた新しい3重抽出モデルを提案する。
具体的には,エンコーダデコーダをベースとした1つの共有トランスフォーマモジュールを提案する。
忠実な結果を得るために,新しい三重項コントラストトレーニングオブジェクトを提案する。
論文 参考訳(メタデータ) (2020-09-14T05:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。