論文の概要: FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression
Recognition in Videos
- arxiv url: http://arxiv.org/abs/2203.09463v1
- Date: Thu, 17 Mar 2022 17:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:21:30.063206
- Title: FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression
Recognition in Videos
- Title(参考訳): FERV39k:ビデオにおける表情認識のための大規模マルチシーンデータセット
- Authors: Yan Wang, Yixuan Sun, Yiwen Huang, Zhongying Liu, Shuyong Gao, Wei
Zhang, Weifeng Ge and Wenqiang Zhang
- Abstract要約: 我々はFERV39kと呼ばれる大規模マルチシーンデータセットを構築した。
4つのシナリオを22のシーンに分割し、よく設計されたワークフローに基づいて4Kビデオから86kのサンプルを自動的に注釈付けし、最後に7つの古典的な表現でラベル付けされた38,935のビデオクリップを作成します。
- 参考スコア(独自算出の注目度): 19.80232867678188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current benchmarks for facial expression recognition (FER) mainly focus on
static images, while there are limited datasets for FER in videos. It is still
ambiguous to evaluate whether performances of existing methods remain
satisfactory in real-world application-oriented scenes. For example, the
"Happy" expression with high intensity in Talk-Show is more discriminating than
the same expression with low intensity in Official-Event. To fill this gap, we
build a large-scale multi-scene dataset, coined as FERV39k. We analyze the
important ingredients of constructing such a novel dataset in three aspects:
(1) multi-scene hierarchy and expression class, (2) generation of candidate
video clips, (3) trusted manual labelling process. Based on these guidelines,
we select 4 scenarios subdivided into 22 scenes, annotate 86k samples
automatically obtained from 4k videos based on the well-designed workflow, and
finally build 38,935 video clips labeled with 7 classic expressions. Experiment
benchmarks on four kinds of baseline frameworks were also provided and further
analysis on their performance across different scenes and some challenges for
future research were given. Besides, we systematically investigate key
components of DFER by ablation studies. The baseline framework and our project
are available on url.
- Abstract(参考訳): 顔表情認識(FER)の現在のベンチマークは、主に静的画像に焦点を当てているが、ビデオにはFERのデータセットが限られている。
既存のメソッドのパフォーマンスが実際のアプリケーション指向のシーンで十分であるかどうかを評価することは、まだ曖昧である。
例えば、トークショーで高輝度の"happy"表現は、公式イベントにおいて低強度の同じ表現よりも識別性が高い。
このギャップを埋めるために、ferV39kと呼ばれる大規模なマルチシーンデータセットを構築しました。
本研究では,(1)マルチシーン階層と表現クラス,(2)候補ビデオクリップの生成,(3)信頼された手動ラベリングプロセスの3つの側面から,このような新しいデータセットを構築する重要な要素を分析する。
これらのガイドラインに基づき,22シーンに分割した4つのシナリオを選択し,適切に設計されたワークフローに基づいて4kビデオから抽出した86kサンプルを自動アノテーションし,最終的に7つの古典的な表現でラベル付けされた38,935本のビデオクリップを構築する。
4種類のベースラインフレームワークの実験ベンチマークも提供され、そのパフォーマンスをさまざまな場面で分析し、今後の研究課題も提示された。
さらに, アブレーション研究によりDFERの主要成分を系統的に検討した。
ベースラインフレームワークと私たちのプロジェクトは、urlで利用可能です。
関連論文リスト
- A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Vamos: Versatile Action Models for Video Understanding [25.03993572202632]
本稿では、個別のアクションラベルや自由形式のビデオキャプションなど、テキストベースの表現を再検討することを提案する。
そこで我々は,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
テキストベースの表現は、すべてのベンチマークにおいて一貫して競合性能を達成し、視覚的な埋め込みは、パフォーマンス改善に限界を与えない。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Instruction Tuning for Few-Shot Aspect-Based Sentiment Analysis [72.9124467710526]
生成的アプローチは、テキストから(1つ以上の)4つの要素を1つのタスクとして抽出するために提案されている。
本稿では,ABSAを解くための統一的なフレームワークと,それに関連するサブタスクを提案する。
論文 参考訳(メタデータ) (2022-10-12T23:38:57Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。