論文の概要: VEATIC: Video-based Emotion and Affect Tracking in Context Dataset
- arxiv url: http://arxiv.org/abs/2309.06745v3
- Date: Fri, 15 Sep 2023 03:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 11:37:57.412604
- Title: VEATIC: Video-based Emotion and Affect Tracking in Context Dataset
- Title(参考訳): VEATIC:コンテキストデータセットにおけるビデオベースの感情と感情追跡
- Authors: Zhihang Ren, Jefferson Ortega, Yifan Wang, Zhimin Chen, Yunhui Guo,
Stella X. Yu, David Whitney
- Abstract要約: 私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
- 参考スコア(独自算出の注目度): 34.77364955121413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human affect recognition has been a significant topic in psychophysics and
computer vision. However, the currently published datasets have many
limitations. For example, most datasets contain frames that contain only
information about facial expressions. Due to the limitations of previous
datasets, it is very hard to either understand the mechanisms for affect
recognition of humans or generalize well on common cases for computer vision
models trained on those datasets. In this work, we introduce a brand new large
dataset, the Video-based Emotion and Affect Tracking in Context Dataset
(VEATIC), that can conquer the limitations of the previous datasets. VEATIC has
124 video clips from Hollywood movies, documentaries, and home videos with
continuous valence and arousal ratings of each frame via real-time annotation.
Along with the dataset, we propose a new computer vision task to infer the
affect of the selected character via both context and character information in
each video frame. Additionally, we propose a simple model to benchmark this new
computer vision task. We also compare the performance of the pretrained model
using our dataset with other similar datasets. Experiments show the competing
results of our pretrained model via VEATIC, indicating the generalizability of
VEATIC. Our dataset is available at https://veatic.github.io.
- Abstract(参考訳): 人間の感情認識は、心理学やコンピュータビジョンにおいて重要なトピックである。
しかし、現在公開されたデータセットには多くの制限がある。
例えば、ほとんどのデータセットは、表情に関する情報のみを含むフレームを含んでいる。
従来のデータセットの制限のため、人間の認識に影響を与えるメカニズムを理解するか、それらのデータセットで訓練されたコンピュータビジョンモデルの場合の一般的なケースでうまく一般化するのは難しい。
本稿では,これまでのデータセットの限界を克服することのできる,新たな大規模データセットであるビデオベースの感情とコンテキストデータセット(veatic)の追跡について紹介する。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
このデータセットとともに,各映像フレームの文脈情報と文字情報から選択されたキャラクタの影響を推測する新しいコンピュータビジョンタスクを提案する。
さらに,この新しいコンピュータビジョンタスクをベンチマークするための簡易モデルを提案する。
また、トレーニング済みのモデルの性能を、我々のデータセットと他の類似したデータセットと比較する。
実験では,VEATICによる事前学習モデルの競合する結果を示し,VEATICの一般化可能性を示す。
私たちのデータセットはhttps://veatic.github.io.com/で利用可能です。
関連論文リスト
- Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [62.265410865423]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Emotion Recognition on large video dataset based on Convolutional
Feature Extractor and Recurrent Neural Network [0.2855485723554975]
我々のモデルは、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせて、ビデオデータ上での次元的感情を予測する。
実験は、最新のAff-Wild2データベースを含む、公開データセットで実施されている。
論文 参考訳(メタデータ) (2020-06-19T14:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。