論文の概要: VEATIC: Video-based Emotion and Affect Tracking in Context Dataset
- arxiv url: http://arxiv.org/abs/2309.06745v3
- Date: Fri, 15 Sep 2023 03:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 11:37:57.412604
- Title: VEATIC: Video-based Emotion and Affect Tracking in Context Dataset
- Title(参考訳): VEATIC:コンテキストデータセットにおけるビデオベースの感情と感情追跡
- Authors: Zhihang Ren, Jefferson Ortega, Yifan Wang, Zhimin Chen, Yunhui Guo,
Stella X. Yu, David Whitney
- Abstract要約: 私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
- 参考スコア(独自算出の注目度): 34.77364955121413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human affect recognition has been a significant topic in psychophysics and
computer vision. However, the currently published datasets have many
limitations. For example, most datasets contain frames that contain only
information about facial expressions. Due to the limitations of previous
datasets, it is very hard to either understand the mechanisms for affect
recognition of humans or generalize well on common cases for computer vision
models trained on those datasets. In this work, we introduce a brand new large
dataset, the Video-based Emotion and Affect Tracking in Context Dataset
(VEATIC), that can conquer the limitations of the previous datasets. VEATIC has
124 video clips from Hollywood movies, documentaries, and home videos with
continuous valence and arousal ratings of each frame via real-time annotation.
Along with the dataset, we propose a new computer vision task to infer the
affect of the selected character via both context and character information in
each video frame. Additionally, we propose a simple model to benchmark this new
computer vision task. We also compare the performance of the pretrained model
using our dataset with other similar datasets. Experiments show the competing
results of our pretrained model via VEATIC, indicating the generalizability of
VEATIC. Our dataset is available at https://veatic.github.io.
- Abstract(参考訳): 人間の感情認識は、心理学やコンピュータビジョンにおいて重要なトピックである。
しかし、現在公開されたデータセットには多くの制限がある。
例えば、ほとんどのデータセットは、表情に関する情報のみを含むフレームを含んでいる。
従来のデータセットの制限のため、人間の認識に影響を与えるメカニズムを理解するか、それらのデータセットで訓練されたコンピュータビジョンモデルの場合の一般的なケースでうまく一般化するのは難しい。
本稿では,これまでのデータセットの限界を克服することのできる,新たな大規模データセットであるビデオベースの感情とコンテキストデータセット(veatic)の追跡について紹介する。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
このデータセットとともに,各映像フレームの文脈情報と文字情報から選択されたキャラクタの影響を推測する新しいコンピュータビジョンタスクを提案する。
さらに,この新しいコンピュータビジョンタスクをベンチマークするための簡易モデルを提案する。
また、トレーニング済みのモデルの性能を、我々のデータセットと他の類似したデータセットと比較する。
実験では,VEATICによる事前学習モデルの競合する結果を示し,VEATICの一般化可能性を示す。
私たちのデータセットはhttps://veatic.github.io.com/で利用可能です。
関連論文リスト
- Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。