論文の概要: SVFAP: Self-supervised Video Facial Affect Perceiver
- arxiv url: http://arxiv.org/abs/2401.00416v1
- Date: Sun, 31 Dec 2023 07:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:31:03.050005
- Title: SVFAP: Self-supervised Video Facial Affect Perceiver
- Title(参考訳): SVFAP: 自己監督型顔効果知覚装置
- Authors: Licai Sun, Zheng Lian, Kexin Wang, Yu He, Mingyu Xu, Haiyang Sun, Bin
Liu, and Jianhua Tao
- Abstract要約: SVFAP(Self-supervised Video Facial Affect Perceiver)
本稿では,自己監督型映像表情知覚器(SVFAP)を提案する。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
総合的な結果から,SVFAPは大規模自己教師付き事前学習を通じて強力な感情関連表現を学習できることが示され,すべてのデータセットにおいて従来の最先端手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 42.16505961654868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based facial affect analysis has recently attracted increasing
attention owing to its critical role in human-computer interaction. Previous
studies mainly focus on developing various deep learning architectures and
training them in a fully supervised manner. Although significant progress has
been achieved by these supervised methods, the longstanding lack of large-scale
high-quality labeled data severely hinders their further improvements.
Motivated by the recent success of self-supervised learning in computer vision,
this paper introduces a self-supervised approach, termed Self-supervised Video
Facial Affect Perceiver (SVFAP), to address the dilemma faced by supervised
methods. Specifically, SVFAP leverages masked facial video autoencoding to
perform self-supervised pre-training on massive unlabeled facial videos.
Considering that large spatiotemporal redundancy exists in facial videos, we
propose a novel temporal pyramid and spatial bottleneck Transformer as the
encoder of SVFAP, which not only enjoys low computational cost but also
achieves excellent performance. To verify the effectiveness of our method, we
conduct experiments on nine datasets spanning three downstream tasks, including
dynamic facial expression recognition, dimensional emotion recognition, and
personality recognition. Comprehensive results demonstrate that SVFAP can learn
powerful affect-related representations via large-scale self-supervised
pre-training and it significantly outperforms previous state-of-the-art methods
on all datasets. Codes will be available at https://github.com/sunlicai/SVFAP.
- Abstract(参考訳): ビデオベースの顔の感情分析は、人間とコンピュータの相互作用において重要な役割を担っているため、最近注目を集めている。
これまでの研究は主に、さまざまなディープラーニングアーキテクチャの開発と、それらを完全に監督された方法でトレーニングすることに集中している。
これらの教師付き手法によって大きな進歩を遂げたものの、大規模で高品質なラベル付きデータの欠如がさらなる改善を妨げる。
近年,コンピュータビジョンにおける自己指導型学習の成功に触発されて,自己監督型ビデオファシアル・アフェイン・パーシーバー(SVFAP)と呼ばれる自己監督型アプローチを導入し,教師付き手法が直面するジレンマに対処する。
具体的には、SVFAPはマスク付き顔ビデオの自動符号化を利用して、巨大なラベルのない顔ビデオで自己教師付き事前トレーニングを行う。
本稿では,svfapのエンコーダとして,時空間的冗長性を考慮し,新しい時間的ピラミッドと空間的ボトルネックトランスフォーマを提案する。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
総合的な結果から,SVFAPは大規模自己教師付き事前学習を通じて強力な感情関連表現を学習できることが示され,すべてのデータセットにおいて従来の最先端手法よりも大幅に優れていた。
コードはhttps://github.com/sunlicai/SVFAPで入手できる。
関連論文リスト
- HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition [38.924509275928884]
自己教師型学習の最近の進歩に触発されて,階層型コントラスト型マスケドオートエンコーダ(HiCMAE)を提案する。
HiCMAEは、大規模なセルフ教師付き事前トレーニングを、ラベルのない膨大なオーディオ視覚データに活用する、新しいセルフ教師付きフレームワークである。
本手法は,最先端の教師付き・自己監督型音声視覚法よりも優れる。
論文 参考訳(メタデータ) (2024-01-11T07:00:07Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective [13.776455033015216]
本稿では,アクション認識のための新しいクロスビュー学習手法を提案する。
まず,トランスフォーマーの自己注意機構に幾何学的制約を新たに導入する。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
論文 参考訳(メタデータ) (2023-05-25T04:14:49Z) - SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video [61.21388780334379]
この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
論文 参考訳(メタデータ) (2022-10-20T15:21:51Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Introducing Representations of Facial Affect in Automated Multimodal
Deception Detection [18.16596562087374]
自動偽造検知システムは、社会の健康、正義、安全を高めることができる。
本稿では,顔認識における顔の感情の次元表現力の新たな解析法を提案する。
私たちは、現実世界の、高額な法廷状況で、真実または偽装的にコミュニケーションする人々のビデオデータセットを使用しました。
論文 参考訳(メタデータ) (2020-08-31T05:12:57Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。