論文の概要: Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2011.01864v2
- Date: Wed, 4 Nov 2020 09:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:18:56.853766
- Title: Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning
- Title(参考訳): コントラスト学習による半教師付き顔動作単位強度推定
- Authors: Enrique Sanchez, Adrian Bulat, Anestis Zaganidis, Georgios
Tzimiropoulos
- Abstract要約: 提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
- 参考スコア(独自算出の注目度): 54.90704746573636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the challenging problem of estimating the intensity of
Facial Action Units with few labeled images. Contrary to previous works, our
method does not require to manually select key frames, and produces
state-of-the-art results with as little as $2\%$ of annotated frames, which are
\textit{randomly chosen}. To this end, we propose a semi-supervised learning
approach where a spatio-temporal model combining a feature extractor and a
temporal module are learned in two stages. The first stage uses datasets of
unlabeled videos to learn a strong spatio-temporal representation of facial
behavior dynamics based on contrastive learning. To our knowledge we are the
first to build upon this framework for modeling facial behavior in an
unsupervised manner. The second stage uses another dataset of randomly chosen
labeled frames to train a regressor on top of our spatio-temporal model for
estimating the AU intensity. We show that although backpropagation through time
is applied only with respect to the output of the network for extremely sparse
and randomly chosen labeled frames, our model can be effectively trained to
estimate AU intensity accurately, thanks to the unsupervised pre-training of
the first stage. We experimentally validate that our method outperforms
existing methods when working with as little as $2\%$ of randomly chosen data
for both DISFA and BP4D datasets, without a careful choice of labeled frames, a
time-consuming task still required in previous approaches.
- Abstract(参考訳): 本稿では,ラベル付き画像が少ない顔行動単位の強度を推定する難題に対処する。
従来の作業とは対照的に、この手法ではキーフレームを手動で選択する必要はなく、注釈付きフレームを最大$2\%$で生成し、それは\textit{randomly select}である。
そこで本研究では,特徴抽出器と時間モジュールを組み合わせた時空間モデルが2段階学習される半教師付き学習手法を提案する。
第1段階では、ラベルのないビデオのデータセットを使用して、コントラスト学習に基づいて、顔の行動ダイナミクスの強い時空間的表現を学ぶ。
私たちの知る限りでは、顔の振る舞いを教師なしでモデル化するためのこのフレームワークを最初に構築しました。
第2段階では、ランダムに選択されたフレームのデータセットを使用して、当社の時空間モデル上で回帰器をトレーニングし、AU強度を推定します。
提案手法は,高度にスパースでランダムにラベル付けされたフレームに対して,ネットワークの出力に対してのみ時間によるバックプロパゲーションを適用するが,第1段階の教師なし事前学習により,AU強度を正確に推定する訓練を効果的に行うことができることを示す。
ラベル付きフレームを慎重に選択することなく,disFAとBP4Dの両方のデータセットに対してランダムに選択されたデータに対して,2\%のコストで作業する場合,既存の手法よりも優れていることを示す。
関連論文リスト
- Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models [55.2480439325792]
そこで本研究では,第1領域における画像のデノベーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを提案する。
提案手法を用いて事前学習したモデルを微調整すると、教師なしまたは教師なしの事前学習を用いて訓練した類似モデルの微調整よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-06T20:19:06Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - FACTUAL: A Novel Framework for Contrastive Learning Based Robust SAR Image Classification [10.911464455072391]
FACTUALは、逆行訓練と堅牢なSAR分類のためのコントラストラーニングフレームワークである。
本モデルでは, 洗浄試料の99.7%, 摂動試料の89.6%の精度が得られた。
論文 参考訳(メタデータ) (2024-04-04T06:20:22Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Self-Distilled Representation Learning for Time Series [45.51976109748732]
時系列データに対する自己教師型学習は、最近自然言語処理とコンピュータビジョンで発表されたものと類似した可能性を秘めている。
我々は,Data2vec自己蒸留フレームワークに基づく,概念的にシンプルだが強力な非競合的アプローチを提案する。
UCRやUEAのアーカイブやETTやElectricityのデータセットなど、最先端の自己教師型学習手法と比較して、下流タスクとして分類と予測を行うアプローチの競争力を実証する。
論文 参考訳(メタデータ) (2023-11-19T14:34:01Z) - Semi-Supervised Learning for hyperspectral images by non parametrically
predicting view assignment [25.198550162904713]
ハイパースペクトル画像(HSI)分類は、画像中のスペクトル情報が高いため、現在、多くの勢いを増している。
近年,ラベル付きサンプルを最小限に抑えたディープラーニングモデルを効果的に訓練するために,ラベル付きサンプルも自己教師付きおよび半教師付き設定で活用されている。
本研究では,半教師付き学習の概念を利用して,モデルの識別的自己教師型事前学習を支援する。
論文 参考訳(メタデータ) (2023-06-19T14:13:56Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。