論文の概要: How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios
- arxiv url: http://arxiv.org/abs/2210.10039v1
- Date: Tue, 18 Oct 2022 17:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:21:42.634790
- Title: How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios
- Title(参考訳): 視聴者の気持ちはどうだろう?
映像シナリオによる幸福度の推定
- Authors: Mantas Mazeika, Eric Tang, Andy Zou, Steven Basart, Jun Shern Chan,
Dawn Song, David Forsyth, Jacob Steinhardt, Dan Hendrycks
- Abstract要約: 情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 73.24092762346095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep neural networks have demonstrated increasingly strong
abilities to recognize objects and activities in videos. However, as video
understanding becomes widely used in real-world applications, a key
consideration is developing human-centric systems that understand not only the
content of the video but also how it would affect the wellbeing and emotional
state of viewers. To facilitate research in this setting, we introduce two
large-scale datasets with over 60,000 videos manually annotated for emotional
response and subjective wellbeing. The Video Cognitive Empathy (VCE) dataset
contains annotations for distributions of fine-grained emotional responses,
allowing models to gain a detailed understanding of affective states. The Video
to Valence (V2V) dataset contains annotations of relative pleasantness between
videos, which enables predicting a continuous spectrum of wellbeing. In
experiments, we show how video models that are primarily trained to recognize
actions and find contours of objects can be repurposed to understand human
preferences and the emotional content of videos. Although there is room for
improvement, predicting wellbeing and emotional response is on the horizon for
state-of-the-art models. We hope our datasets can help foster further advances
at the intersection of commonsense video understanding and human preference
learning.
- Abstract(参考訳): 近年、ディープニューラルネットワークは、ビデオ内のオブジェクトやアクティビティを認識する能力がますます強くなっている。
しかし、映像理解が現実世界のアプリケーションで広く使われるようになるにつれて、ビデオの内容だけでなく、視聴者の幸福感や感情状態にどのように影響するかを理解する人間中心のシステムを開発することが重要視される。
そこで本研究では,6万本以上の映像を手作業でアノテートし,感情的反応と主観的幸福度を判断する2つの大規模データセットを提案する。
ビデオ認知共感(VCE)データセットには、きめ細かい感情応答の分布に関するアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valence(V2V)データセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
実験では、主にアクションを認識し、オブジェクトの輪郭を見つけるために訓練されたビデオモデルを、人間の好みやビデオの感情的内容を理解するために再利用する方法を示す。
改善の余地はあるものの、幸福感や感情的な反応を予測することは、最先端のモデルにとって地平線上にある。
当社のデータセットは、commonsenseビデオ理解と人間の好み学習の交差点におけるさらなる進歩を促進できることを願っています。
関連論文リスト
- eMotions: A Large-Scale Dataset for Emotion Recognition in Short Videos [7.011656298079659]
短いビデオ(SV)が普及すると、SVにおける感情認識の必要性が生じる。
SVの感情データがないことから,27,996本のビデオからなるeMotionsという大規模データセットを導入する。
本稿では,ビデオトランスフォーマを用いて意味的関連表現をよりよく学習する,エンドツーエンドのベースライン方式AV-CPNetを提案する。
論文 参考訳(メタデータ) (2023-11-29T03:24:30Z) - Contextual Explainable Video Representation:\\Human Perception-based
Understanding [10.172332586182792]
人間の知覚過程をアクター、オブジェクト、環境のモデリングに組み込むアプローチについて議論する。
ビデオ理解における人間の知覚に基づく文脈表現の有効性を示すために,ビデオ文のキャプションと時間的行動検出を選択する。
論文 参考訳(メタデータ) (2022-12-12T19:29:07Z) - Affection: Learning Affective Explanations for Real-World Visual Data [50.28825017427716]
我々は,85,007枚の公開画像に対して,感情反応と自由形式のテキスト説明を含む大規模データセットを研究コミュニティに導入し,共有する。
本研究は, 被写体集団に大きな支持を得て, 潜在的に有意な感情反応をとらえる上で, 重要な共通基盤があることを示唆する。
私たちの研究は、より豊かで、より人間中心で、感情に敏感な画像分析システムへの道を開くものです。
論文 参考訳(メタデータ) (2022-10-04T22:44:17Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Use of Affective Visual Information for Summarization of Human-Centric
Videos [13.273989782771556]
本研究では、人間中心のビデオに対する感情情報豊かに教師付きビデオ要約タスクについて検討する。
まず、RECOLAデータセット上で視覚的入力駆動型感情認識モデル(CER-NET)を訓練し、感情特性を推定する。
次に,CER-NETの感情特性と高レベル表現を視覚情報と統合し,提案した情緒的映像要約アーキテクチャ(AVSUM)を定義する。
論文 参考訳(メタデータ) (2021-07-08T11:46:04Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Emotional Video to Audio Transformation Using Deep Recurrent Neural
Networks and a Neuro-Fuzzy System [8.900866276512364]
現在のアプローチは、音楽生成ステップにおけるビデオの感情的特徴を見落としている。
本稿では,適応型ニューロファジィ推論システムを用いて映像の感情を予測するハイブリッドディープニューラルネットワークを提案する。
我々のモデルは、両方のデータセットのビューアーから類似した感情を引き出すシーンにマッチする音声を効果的に生成できる。
論文 参考訳(メタデータ) (2020-04-05T07:18:28Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。