論文の概要: Expression Snippet Transformer for Robust Video-based Facial Expression
Recognition
- arxiv url: http://arxiv.org/abs/2109.08409v1
- Date: Fri, 17 Sep 2021 08:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:39:46.648479
- Title: Expression Snippet Transformer for Robust Video-based Facial Expression
Recognition
- Title(参考訳): ロバストなビデオ表情認識のための表現スニペットトランスフォーマー
- Authors: Yuanyuan Liu, Wenbin Wang, Chuanxu Feng, Haoyu Zhang, Zhe Chen, Yibing
Zhan
- Abstract要約: 本稿では,各映像を一連の表情スニペットに分解し,顔の動きを少なくする手法を提案する。
特に、スニペット内モデリングにおいて、スニペットの微妙な顔の動きのエンコーディングを強化するために、注意増強スニペット特徴抽出器(AA-SFE)を考案した。
さらに,スニペット間モデリングでは,シャッフルスニペット順序予測(SSOP)とそれに対応する損失を導入し,微妙な動き変化のモデル化を改善する。
- 参考スコア(独自算出の注目度): 20.695042515384877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent success of Transformer has provided a new direction to various
visual understanding tasks, including video-based facial expression recognition
(FER). By modeling visual relations effectively, Transformer has shown its
power for describing complicated patterns. However, Transformer still performs
unsatisfactorily to notice subtle facial expression movements, because the
expression movements of many videos can be too small to extract meaningful
spatial-temporal relations and achieve robust performance. To this end, we
propose to decompose each video into a series of expression snippets, each of
which contains a small number of facial movements, and attempt to augment the
Transformer's ability for modeling intra-snippet and inter-snippet visual
relations, respectively, obtaining the Expression snippet Transformer (EST). In
particular, for intra-snippet modeling, we devise an attention-augmented
snippet feature extractor (AA-SFE) to enhance the encoding of subtle facial
movements of each snippet by gradually attending to more salient information.
In addition, for inter-snippet modeling, we introduce a shuffled snippet order
prediction (SSOP) head and a corresponding loss to improve the modeling of
subtle motion changes across subsequent snippets by training the Transformer to
identify shuffled snippet orders. Extensive experiments on four challenging
datasets (i.e., BU-3DFE, MMI, AFEW, and DFEW) demonstrate that our EST is
superior to other CNN-based methods, obtaining state-of-the-art performance.
- Abstract(参考訳): 最近のtransformerの成功は、ビデオベースの表情認識(fer)を含む様々な視覚理解タスクに新しい方向を与えている。
視覚関係を効果的にモデル化することで、Transformerは複雑なパターンを記述する能力を示した。
しかし、トランスフォーマーは、多くのビデオの表情が小さすぎて意味のある空間的-時間的関係を抽出できないため、微妙な表情の動きに気付きにくい。
そこで本研究では,各動画を少数の顔の動きを含む一連の表現スニペットに分解し,表現スニペットトランスフォーマー(EST)を用いて,スニペット内とスニペット間の関係をモデル化するトランスフォーマーの能力を増強する手法を提案する。
特に,スニペット内モデリングにおいて,スニペットの微妙な顔の動きのエンコーディングを強化するために,注意増強スニペット特徴抽出器(AA-SFE)を考案した。
さらに,Snippet間モデリングでは,シャッフルスニペット順序予測(SSOP)とそれに対応する損失を導入し,シャッフルスニペット順序の同定のためにトランスフォーマーを訓練することにより,その後のスニペット間の微妙な動き変化のモデル化を改善する。
4つの挑戦的データセット(BU-3DFE, MMI, AFEW, DFEW)に対する大規模な実験は、ESTが他のCNNベースの手法よりも優れていることを示す。
関連論文リスト
- B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers [97.75725574963197]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
論文 参考訳(メタデータ) (2023-06-19T12:54:28Z) - Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文 参考訳(メタデータ) (2023-03-27T20:47:01Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。