論文の概要: Spatiotemporal Contrastive Learning of Facial Expressions in Videos
- arxiv url: http://arxiv.org/abs/2108.03064v1
- Date: Fri, 6 Aug 2021 11:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 18:56:11.990471
- Title: Spatiotemporal Contrastive Learning of Facial Expressions in Videos
- Title(参考訳): ビデオにおける表情の時空間的コントラスト学習
- Authors: Shuvendu Roy, Ali Etemad
- Abstract要約: ビデオにおける表情認識(FER)のための自己教師付きコントラスト学習手法を提案する。
本稿では,標準空間拡張に加えて,時間的サンプリングに基づく拡張手法を提案する。
その結果,本手法は89.4%の精度を達成し,他の手法よりも高い精度で新たな最先端技術が確立された。
- 参考スコア(独自算出の注目度): 9.949781365631557
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a self-supervised contrastive learning approach for facial
expression recognition (FER) in videos. We propose a novel temporal
sampling-based augmentation scheme to be utilized in addition to standard
spatial augmentations used for contrastive learning. Our proposed temporal
augmentation scheme randomly picks from one of three temporal sampling
techniques: (1) pure random sampling, (2) uniform sampling, and (3) sequential
sampling. This is followed by a combination of up to three standard spatial
augmentations. We then use a deep R(2+1)D network for FER, which we train in a
self-supervised fashion based on the augmentations and subsequently fine-tune.
Experiments are performed on the Oulu-CASIA dataset and the performance is
compared to other works in FER. The results indicate that our method achieves
an accuracy of 89.4%, setting a new state-of-the-art by outperforming other
works. Additional experiments and analysis confirm the considerable
contribution of the proposed temporal augmentation versus the existing spatial
ones.
- Abstract(参考訳): ビデオにおける表情認識(FER)のための自己教師付きコントラスト学習手法を提案する。
本稿では,コントラスト学習に使用される標準的な空間拡張に加えて,新しい時間的サンプリングに基づく増補法を提案する。
提案手法は,(1)純ランダムサンプリング,(2)一様サンプリング,(3)逐次サンプリングの3つの手法のうちの1つからランダムに抽出する。
これに続いて、最大3つの標準空間拡張が組み合わされる。
次に、FERのために深いR(2+1)Dネットワークを使用し、拡張に基づいて自己教師付きで訓練し、その後微調整する。
Oulu-CASIAデータセットで実験を行い、FERの他の研究と比較する。
以上の結果から,本手法は89.4%の精度を実現し,他の手法を上回って新たな最先端の手法を考案した。
さらなる実験と分析により、提案する時間的増補と既存の空間的増補の有意な寄与が確認された。
関連論文リスト
- RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields [6.071025178912125]
ガウススプラッティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。
提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-28T10:34:28Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Beyond Random Augmentations: Pretraining with Hard Views [40.88518237601708]
Hard View Pretraining (HVP)は、SSL事前トレーニング中にモデルをより難しく、より困難なサンプルに公開する学習不要の戦略である。
HVPは、100と300のエポック事前学習において、ImageNetの平均で1%の線形評価精度の向上を実現している。
論文 参考訳(メタデータ) (2023-10-05T23:09:19Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Bootstrapped Representation Learning for Skeleton-Based Action
Recognition [0.03222802562733786]
本研究では3次元骨格に基づく行動認識のための自己教師付き表現学習について検討する。
本手法は, 線形評価と半教師付きベンチマークの両面において, 技術の現状を常に上回っている。
論文 参考訳(メタデータ) (2022-02-04T16:58:06Z) - Mine Your Own vieW: Self-Supervised Learning Through Across-Sample
Prediction [29.569904222648653]
Mine Your Own vieW (MYOW) は,自己教師型学習 (SSL) にクロスサンプル予測を構築するための新しいアプローチである。
MYOWは積極的にビューをマイニングし、ネットワークの表現空間に近接するサンプルを発見し、次に、あるサンプルの潜在表現、近くのサンプルの表現から予測する。
コンピュータビジョンで使用される標準データセット上でMYOWの約束を示すことに加えて、我々は、豊富な増強がすでに確立されていない神経科学における新しいアプリケーションで、このアイデアの力を強調します。
論文 参考訳(メタデータ) (2021-02-19T18:59:59Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。