論文の概要: AVCAffe: A Large Scale Audio-Visual Dataset of Cognitive Load and Affect
for Remote Work
- arxiv url: http://arxiv.org/abs/2205.06887v1
- Date: Fri, 13 May 2022 20:55:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 14:59:04.739755
- Title: AVCAffe: A Large Scale Audio-Visual Dataset of Cognitive Load and Affect
for Remote Work
- Title(参考訳): AVCAffe: リモートワークにおける認知的負荷と影響の大規模オーディオ・ビジュアルデータセット
- Authors: Pritam Sarkar, Aaron Posen, Ali Etemad
- Abstract要約: AVCAffeは認知負荷とAffect属性からなる最初のオーディオ・ビジュアルデータセットである。
AVCAffeは、英語で収集された(インターネットから収集されていない)感情データセットとしては最大である。
- 参考スコア(独自算出の注目度): 21.42089436697057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce AVCAffe, the first Audio-Visual dataset consisting of Cognitive
load and Affect attributes. We record AVCAffe by simulating remote work
scenarios over a video-conferencing platform, where subjects collaborate to
complete a number of cognitively engaging tasks. AVCAffe is the largest
originally collected (not collected from the Internet) affective dataset in
English language. We recruit 106 participants from 18 different countries of
origin, spanning an age range of 18 to 57 years old, with a balanced
male-female ratio. AVCAffe comprises a total of 108 hours of video, equivalent
to more than 58,000 clips along with task-based self-reported ground truth
labels for arousal, valence, and cognitive load attributes such as mental
demand, temporal demand, effort, and a few others. We believe AVCAffe would be
a challenging benchmark for the deep learning research community given the
inherent difficulty of classifying affect and cognitive load in particular.
Moreover, our dataset fills an existing timely gap by facilitating the creation
of learning systems for better self-management of remote work meetings, and
further study of hypotheses regarding the impact of remote work on cognitive
load and affective states.
- Abstract(参考訳): AVCAffeは認知負荷とAffect属性からなる最初のオーディオ・ビジュアルデータセットである。
AVCAffeはビデオ会議プラットフォーム上で遠隔作業シナリオをシミュレートすることで記録します。
AVCAffeは、英語で収集された(インターネットから収集されていない)感情データセットとしては最大である。
18歳から57歳までの異なる18カ国から106人の参加者を募集し,男女比のバランスを取っている。
AVCAffeは、合計で108時間のビデオで構成され、58,000回以上のクリップに相当し、また、心的要求、時間的要求、努力などの認知的負荷特性に対するタスクベースの自己報告された真実ラベルも備えている。
avcaffeは、特に影響と認知負荷を分類するのが本質的に難しいため、ディープラーニング研究コミュニティにとって難しいベンチマークであると考えています。
さらに,遠隔作業ミーティングの自己管理を支援する学習システムの構築と,遠隔作業が認知的負荷と情緒的状態に与える影響に関する仮説のさらなる検討により,既存のタイムリーなギャップを埋める。
関連論文リスト
- SUN Team's Contribution to ABAW 2024 Competition: Audio-visual Valence-Arousal Estimation and Expression Recognition [8.625751046347139]
本研究では,感情認識における視覚的深層学習手法について検討する。
細調整畳み込みニューラルネットワーク(CNN)と公共次元感情モデル(PDEM)に基づくアーキテクチャの有効性について検討する。
多段階学習モード特化ディープニューラルネット(DNN)の埋め込みを用いた時間モデルと融合戦略の比較を行った。
論文 参考訳(メタデータ) (2024-03-19T10:24:15Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Human-like Relational Models for Activity Recognition in Video [8.87742125296885]
ディープニューラルネットワークによるビデオアクティビティ認識は多くのクラスにとって印象的だ。
ディープニューラルネットワークは、重要な関係を効果的に学習するのに苦労する。
本稿では,映像を時系列的に解釈する,より人間的な行動認識手法を提案する。
我々は,この手法を何かのデータセットの挑戦的なサブセットに適用し,挑戦的なアクティビティに基づくニューラルネットワークのベースラインに対するより堅牢なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-12T11:13:17Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。