論文の概要: LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition
- arxiv url: http://arxiv.org/abs/2305.03343v1
- Date: Fri, 5 May 2023 07:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 15:00:42.023686
- Title: LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial
Expression Recognition
- Title(参考訳): logo-former:動的表情認識のための局所的時空間トランスフォーマ
- Authors: Fuyan Ma, Bin Sun and Shutao Li
- Abstract要約: 野生の表情認識(DFER)の従来の方法は、主にCNN(Convolutional Neural Networks)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーを用いた性能向上手法を提案するが,高いFLOPと計算コストが生じる。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
- 参考スコア(独自算出の注目度): 19.5702895176141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods for dynamic facial expression recognition (DFER) in the wild
are mainly based on Convolutional Neural Networks (CNNs), whose local
operations ignore the long-range dependencies in videos. Transformer-based
methods for DFER can achieve better performances but result in higher FLOPs and
computational costs. To solve these problems, the local-global spatio-temporal
Transformer (LOGO-Former) is proposed to capture discriminative features within
each frame and model contextual relationships among frames while balancing the
complexity. Based on the priors that facial muscles move locally and facial
expressions gradually change, we first restrict both the space attention and
the time attention to a local window to capture local interactions among
feature tokens. Furthermore, we perform the global attention by querying a
token with features from each local window iteratively to obtain long-range
information of the whole video sequence. In addition, we propose the compact
loss regularization term to further encourage the learned features have the
minimum intra-class distance and the maximum inter-class distance. Experiments
on two in-the-wild dynamic facial expression datasets (i.e., DFEW and FERV39K)
indicate that our method provides an effective way to make use of the spatial
and temporal dependencies for DFER.
- Abstract(参考訳): 野生での動的表情認識(dfer)の手法は、主に畳み込みニューラルネットワーク(cnns)に基づいており、ローカル操作はビデオの長距離依存性を無視している。
DFERのトランスフォーマーベースの手法は性能が向上するが、FLOPや計算コストが向上する。
これらの問題を解決するために,各フレーム内の識別的特徴を抽出し,複雑さのバランスを保ちながらフレーム間のコンテキスト関係をモデル化するローカル・グローバル時空間変換器(LOGO-Former)を提案する。
顔の筋肉が局所的に動き、表情が徐々に変化するという先例に基づいて、まず空間的注意と時間的注意の両方を局所的な窓に制限し、特徴トークン間の局所的な相互作用を捉える。
さらに,各ローカルウインドウから特徴のあるトークンを反復的にクエリし,全映像列の長距離情報を得ることにより,グローバルに注目する。
さらに,最小クラス間距離と最大クラス間距離の学習特徴をより促進するために,コンパクトな損失正規化項を提案する。
DFEW と FERV39K の2つの動的表情データセットの実験結果から,DFER の空間的および時間的依存関係を効果的に活用する方法が示唆された。
関連論文リスト
- MSSTNet: A Multi-Scale Spatio-Temporal CNN-Transformer Network for Dynamic Facial Expression Recognition [4.512502015606517]
マルチスケール時間CNN-Transformer Network (MSSTNet) を提案する。
提案手法はCNNが抽出した空間的異なるスケールを多スケール埋め込み層(MELayer)に供給する。
MELayerは、マルチスケール空間情報を抽出し、これらの特徴を符号化し、トランスフォーマー(T-Former)に送信する。
論文 参考訳(メタデータ) (2024-04-12T12:30:48Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in
the Wild [19.5702895176141]
本稿では,各フレームモデル内の異種特徴を抽出する手法を提案する。
我々はCNNを用いて各フレームを視覚的特徴系列に変換する。
実験の結果,本手法は空間的および時間的依存を効果的に活用できることが示された。
論文 参考訳(メタデータ) (2022-05-10T08:47:15Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。