論文の概要: EEV: A Large-Scale Dataset for Studying Evoked Expressions from Video
- arxiv url: http://arxiv.org/abs/2001.05488v2
- Date: Mon, 22 Feb 2021 18:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:41:45.960497
- Title: EEV: A Large-Scale Dataset for Studying Evoked Expressions from Video
- Title(参考訳): EEV: ビデオから誘発された表現を研究するための大規模データセット
- Authors: Jennifer J. Sun, Ting Liu, Alan S. Cowen, Florian Schroff, Hartwig
Adam, Gautam Prasad
- Abstract要約: Evoked Expressions from Videos データセットは、ビデオに対する視聴者の反応を研究するための大規模なデータセットである。
各ビデオは6Hzでアノテートされ、ビデオに反応した視聴者の表情に対応する15の連続的な誘発された表現ラベルが付与される。
23,574本のビデオ(1,700時間)に対する3670万の顔反応アノテーションがある
- 参考スコア(独自算出の注目度): 23.95850953376425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos can evoke a range of affective responses in viewers. The ability to
predict evoked affect from a video, before viewers watch the video, can help in
content creation and video recommendation. We introduce the Evoked Expressions
from Videos (EEV) dataset, a large-scale dataset for studying viewer responses
to videos. Each video is annotated at 6 Hz with 15 continuous evoked expression
labels, corresponding to the facial expression of viewers who reacted to the
video. We use an expression recognition model within our data collection
framework to achieve scalability. In total, there are 36.7 million annotations
of viewer facial reactions to 23,574 videos (1,700 hours). We use a publicly
available video corpus to obtain a diverse set of video content. We establish
baseline performance on the EEV dataset using an existing multimodal recurrent
model. Transfer learning experiments show an improvement in performance on the
LIRIS-ACCEDE video dataset when pre-trained on EEV. We hope that the size and
diversity of the EEV dataset will encourage further explorations in video
understanding and affective computing. A subset of EEV is released at
https://github.com/google-research-datasets/eev.
- Abstract(参考訳): ビデオは視聴者に様々な感情的な反応を引き起こす。
視聴者がビデオを見る前に、ビデオから誘発される影響を予測する能力は、コンテンツの作成とビデオのレコメンデーションに役立つ。
EEV(Evoked Expressions from Videos)データセットは、ビデオに対する視聴者の反応を研究するための大規模なデータセットである。
各ビデオは6hzでアノテートされ、ビデオに反応した視聴者の表情に対応する15の連続的な誘発表現ラベルが付加される。
データ収集フレームワーク内で表現認識モデルを使用してスケーラビリティを実現しています。
合計で3670万の顔反応のアノテーションがあり、23,574本のビデオ(1,700時間)がある。
公開されているビデオコーパスを使用して、多様なビデオコンテンツを取得する。
既存のマルチモーダルリカレントモデルを用いて,EEVデータセットのベースライン性能を確立する。
転送学習実験は、EEVで事前トレーニングされたLIRIS-ACCEDEビデオデータセットのパフォーマンス改善を示す。
EEVデータセットのサイズと多様性が、ビデオ理解と感情コンピューティングにおけるさらなる探索を促進することを願っている。
EEVのサブセットはhttps://github.com/google-research-datasets/eevで公開されている。
関連論文リスト
- OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos [58.5538620720541]
データセットであるOVRには72Kビデオのアノテーションが含まれている。
OVRは、ビデオの繰り返しのための以前のデータセットよりも桁違いに大きい。
本稿では,ビデオの繰り返しを最大320フレームまでカウントできるベースライントランスフォーマーベースのカウントモデルOVRCounterを提案する。
論文 参考訳(メタデータ) (2024-07-24T08:22:49Z) - DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - ERA: A Dataset and Deep Learning Benchmark for Event Recognition in
Aerial Videos [28.598710179447803]
本稿では,遠隔センシングコミュニティにおける非拘束空中ビデオにおけるイベント認識の新たな課題について紹介する。
ERA(Event Recognition in Aerial Video)という,大規模で人間による注釈付きデータセットを提案する。
ERAデータセットは、クラス内の大きなバリエーションとクラス間の類似性を持つように設計されている。
論文 参考訳(メタデータ) (2020-01-30T15:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。