論文の概要: FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression
Recognition in Videos
- arxiv url: http://arxiv.org/abs/2203.09463v2
- Date: Sun, 20 Mar 2022 09:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 10:34:47.728461
- Title: FERV39k: A Large-Scale Multi-Scene Dataset for Facial Expression
Recognition in Videos
- Title(参考訳): FERV39k:ビデオにおける表情認識のための大規模マルチシーンデータセット
- Authors: Yan Wang, Yixuan Sun, Yiwen Huang, Zhongying Liu, Shuyong Gao, Wei
Zhang, Weifeng Ge and Wenqiang Zhang
- Abstract要約: 我々はFERV39kと呼ばれる大規模マルチシーンデータセットを構築した。
4つのシナリオを22のシーンに分割し、よく設計されたワークフローに基づいて4Kビデオから86kのサンプルを自動的に注釈付けし、最後に7つの古典的な表現でラベル付けされた38,935のビデオクリップを作成します。
- 参考スコア(独自算出の注目度): 19.80232867678188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current benchmarks for facial expression recognition (FER) mainly focus on
static images, while there are limited datasets for FER in videos. It is still
ambiguous to evaluate whether performances of existing methods remain
satisfactory in real-world application-oriented scenes. For example, the
"Happy" expression with high intensity in Talk-Show is more discriminating than
the same expression with low intensity in Official-Event. To fill this gap, we
build a large-scale multi-scene dataset, coined as FERV39k. We analyze the
important ingredients of constructing such a novel dataset in three aspects:
(1) multi-scene hierarchy and expression class, (2) generation of candidate
video clips, (3) trusted manual labelling process. Based on these guidelines,
we select 4 scenarios subdivided into 22 scenes, annotate 86k samples
automatically obtained from 4k videos based on the well-designed workflow, and
finally build 38,935 video clips labeled with 7 classic expressions. Experiment
benchmarks on four kinds of baseline frameworks were also provided and further
analysis on their performance across different scenes and some challenges for
future research were given. Besides, we systematically investigate key
components of DFER by ablation studies. The baseline framework and our project
will be available.
- Abstract(参考訳): 顔表情認識(FER)の現在のベンチマークは、主に静的画像に焦点を当てているが、ビデオにはFERのデータセットが限られている。
既存のメソッドのパフォーマンスが実際のアプリケーション指向のシーンで十分であるかどうかを評価することは、まだ曖昧である。
例えば、トークショーで高輝度の"happy"表現は、公式イベントにおいて低強度の同じ表現よりも識別性が高い。
このギャップを埋めるために、ferV39kと呼ばれる大規模なマルチシーンデータセットを構築しました。
本研究では,(1)マルチシーン階層と表現クラス,(2)候補ビデオクリップの生成,(3)信頼された手動ラベリングプロセスの3つの側面から,このような新しいデータセットを構築する重要な要素を分析する。
これらのガイドラインに基づき,22シーンに分割した4つのシナリオを選択し,適切に設計されたワークフローに基づいて4kビデオから抽出した86kサンプルを自動アノテーションし,最終的に7つの古典的な表現でラベル付けされた38,935本のビデオクリップを構築する。
4種類のベースラインフレームワークの実験ベンチマークも提供され、そのパフォーマンスをさまざまな場面で分析し、今後の研究課題も提示された。
さらに, アブレーション研究によりDFERの主要成分を系統的に検討した。
ベースラインフレームワークとプロジェクトは利用可能になります。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding [57.630136434038384]
E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark)は、イベントレベルのオープンな理解のための大規模ベンチマークである。
ベンチマークでは,8つの画像-LLMと12個のビデオ-LLMを広範囲に評価し,その結果から,粗い(ビデオレベル)理解のための最先端モデルが,きめ細かなタスクの解決に苦慮していることが判明した。
私たちのシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-09-26T17:53:04Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。
提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文 参考訳(メタデータ) (2023-11-30T18:43:51Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。