論文の概要: Efficient Labelling of Affective Video Datasets via Few-Shot &
Multi-Task Contrastive Learning
- arxiv url: http://arxiv.org/abs/2308.02173v1
- Date: Fri, 4 Aug 2023 07:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:43:00.219142
- Title: Efficient Labelling of Affective Video Datasets via Few-Shot &
Multi-Task Contrastive Learning
- Title(参考訳): マイトショットとマルチタスクコントラスト学習による感情的ビデオデータセットの効率的なラベリング
- Authors: Ravikiran Parameshwara, Ibrahim Radwan, Akshay Asthana, Iman
Abbasnejad, Ramanathan Subramanian and Roland Goecke
- Abstract要約: 本稿では, 影響表現のためのマルチタスクコントラスト学習(textbfMT-CLAR)を提案する。
MT-CLARは、マルチタスク学習と、対照的な学習を通じて訓練されたシームズネットワークを組み合わせて、表現力のある顔画像から推測する。
自動ビデオラベリングのための画像ベースMT-CLARフレームワークを拡張した。
- 参考スコア(独自算出の注目度): 5.235294751659532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whilst deep learning techniques have achieved excellent emotion prediction,
they still require large amounts of labelled training data, which are (a)
onerous and tedious to compile, and (b) prone to errors and biases. We propose
Multi-Task Contrastive Learning for Affect Representation (\textbf{MT-CLAR})
for few-shot affect inference. MT-CLAR combines multi-task learning with a
Siamese network trained via contrastive learning to infer from a pair of
expressive facial images (a) the (dis)similarity between the facial
expressions, and (b) the difference in valence and arousal levels of the two
faces. We further extend the image-based MT-CLAR framework for automated video
labelling where, given one or a few labelled video frames (termed
\textit{support-set}), MT-CLAR labels the remainder of the video for valence
and arousal. Experiments are performed on the AFEW-VA dataset with multiple
support-set configurations; moreover, supervised learning on representations
learnt via MT-CLAR are used for valence, arousal and categorical emotion
prediction on the AffectNet and AFEW-VA datasets. The results show that valence
and arousal predictions via MT-CLAR are very comparable to the state-of-the-art
(SOTA), and we significantly outperform SOTA with a support-set $\approx$6\%
the size of the video dataset.
- Abstract(参考訳): 深層学習技術は優れた感情予測を達成しているが、それでも大量のラベル付きトレーニングデータが必要である。
(a)コンパイルが面倒で面倒で、
(b)誤りや偏見がちである。
本稿では, 影響表現のためのマルチタスクコントラスト学習 (\textbf{MT-CLAR}) を提案する。
MT-CLARは、マルチタスク学習とコントラスト学習によって訓練されたシームズネットワークを組み合わせることで、一対の表情画像から推測する
a) 表情の相似性、および
(b)2つの顔の価値と覚醒レベルの差。
さらに,自動ビデオラベリングのための画像ベースのmt-clarフレームワークを拡張し,ラベル付きビデオフレーム( \textit{support-set} と呼ばれる)を1つまたは数個与えた場合,残りのビデオは valence と arousal でラベル付けされる。
さらに、MT-CLARを介して学習した表現に対する教師付き学習は、AffectNetとAFEW-VAデータセット上での原子価、覚醒、カテゴリー的感情予測に使用される。
その結果,MT-CLARによる精度と覚醒予測は最先端のSOTA(State-of-the-art)に非常によく似ており,ビデオデータセットの6倍の容量でSOTAをはるかに上回っていることがわかった。
関連論文リスト
- eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos [7.011656298079659]
短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - (Un)likelihood Training for Interpretable Embedding [30.499562324921648]
テキストと視覚データのセマンティックなギャップを埋める上で,クロスモーダル表現学習は新たな標準となっている。
埋め込みの背後にあるセマンティクスをアンロールする2つの新しい訓練目標,可能性と相違関数を提案する。
双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが,アドホックなビデオ検索のために提案されている。
論文 参考訳(メタデータ) (2022-07-01T09:15:02Z) - Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。
M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。
我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文 参考訳(メタデータ) (2022-05-27T19:09:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。