論文の概要: SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video
- arxiv url: http://arxiv.org/abs/2210.11341v1
- Date: Thu, 20 Oct 2022 15:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:07:16.086527
- Title: SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from
Video
- Title(参考訳): SS-VAERR:ビデオからの自己監督型感情反応認識
- Authors: Marija Jegorova, Stavros Petridis, Maja Pantic
- Abstract要約: この研究は、自己監督的な方法で行われるビデオのみの入力からの明らかな感情的反応の認識に焦点を当てる。
ネットワークは、まず異なる自己教師付きプレテキストタスクで事前訓練され、その後、下流のターゲットタスクで微調整される。
- 参考スコア(独自算出の注目度): 61.21388780334379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on the apparent emotional reaction recognition (AERR) from
the video-only input, conducted in a self-supervised fashion. The network is
first pre-trained on different self-supervised pretext tasks and later
fine-tuned on the downstream target task. Self-supervised learning facilitates
the use of pre-trained architectures and larger datasets that might be deemed
unfit for the target task and yet might be useful to learn informative
representations and hence provide useful initializations for further
fine-tuning on smaller more suitable data. Our presented contribution is
two-fold: (1) an analysis of different state-of-the-art (SOTA) pretext tasks
for the video-only apparent emotional reaction recognition architecture, and
(2) an analysis of various combinations of the regression and classification
losses that are likely to improve the performance further. Together these two
contributions result in the current state-of-the-art performance for the
video-only spontaneous apparent emotional reaction recognition with continuous
annotations.
- Abstract(参考訳): 本研究は,映像のみの入力からの感情的反応認識(aerr)を自己監督的に行うことに焦点を当てた。
ネットワークはまず、異なる自己教師付きプリテキストタスクで事前トレーニングされ、後に下流のターゲットタスクで微調整される。
自己教師付き学習は、対象のタスクに適さないと判断されるような事前訓練されたアーキテクチャやより大きなデータセットの使用を促進するが、情報表現の学習には有用であり、より小さなより適切なデータにさらなる微調整を行う上で有用な初期化を提供する。
提案する貢献は,(1)ビデオのみの感情的反応認識アーキテクチャのための,異なる最先端(SOTA)プレテキストタスクの解析,(2)さらなるパフォーマンス向上につながる可能性のある回帰と分類損失の様々な組み合わせの分析である。
これら2つの貢献により、連続アノテーションによるビデオのみの自発的な感情的反応認識における最先端のパフォーマンスが向上した。
関連論文リスト
- SVFAP: Self-supervised Video Facial Affect Perceiver [42.16505961654868]
SVFAP(Self-supervised Video Facial Affect Perceiver)
本稿では,自己監督型映像表情知覚器(SVFAP)を提案する。
提案手法の有効性を検証するため, 動的表情認識, 次元感情認識, パーソナリティ認識を含む3つの下流タスクにまたがる9つのデータセットを用いて実験を行った。
総合的な結果から,SVFAPは大規模自己教師付き事前学習を通じて強力な感情関連表現を学習できることが示され,すべてのデータセットにおいて従来の最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-31T07:44:05Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - Self-supervised Spatiotemporal Representation Learning by Exploiting
Video Continuity [15.429045937335236]
この研究は、自己教師付き表現学習のための監視信号を得るために、ビデオの本質的かつ未探索な性質であるテキストビデオ連続性を利用する。
連続性正当性、不連続性局所化、欠落部分近似の3つの新しい連続性関連前提タスクを定式化する。
連続知覚ネットワーク(CPNet)と呼ばれるこの自己超越的アプローチは、3つのタスクを完全に解決し、バックボーンネットワークが局所的かつ長距離な動きとコンテキスト表現を学習することを奨励する。
論文 参考訳(メタデータ) (2021-12-11T00:35:27Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Self-supervised Co-training for Video Representation Learning [103.69904379356413]
実例に基づく情報ノイズコントラスト推定訓練に意味クラス正の付加を施すことの利点について検討する。
本稿では,インフォネッションNCEの損失を改善するための,自己指導型協調学習手法を提案する。
本研究では,2つの下流タスク(行動認識とビデオ検索)における学習表現の質を評価する。
論文 参考訳(メタデータ) (2020-10-19T17:59:01Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。