論文の概要: GameVibe: A Multimodal Affective Game Corpus
- arxiv url: http://arxiv.org/abs/2407.12787v1
- Date: Mon, 17 Jun 2024 10:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:57:39.536664
- Title: GameVibe: A Multimodal Affective Game Corpus
- Title(参考訳): GameVibe:マルチモーダル・アフェクティブ・ゲーム・コーポレーション
- Authors: Matthew Barthet, Maria Kaselimi, Kosmas Pinitas, Konstantinos Makantasis, Antonios Liapis, Georgios N. Yannakakis,
- Abstract要約: 本稿では,マルチモーダル・オーディオ視覚刺激による感性コーパスであるGameVibeについて紹介する。
コーパスは30のゲームにまたがって公開されている様々なゲームプレイセッションのビデオで構成されている。
- 参考スコア(独自算出の注目度): 4.846739905880406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As online video and streaming platforms continue to grow, affective computing research has undergone a shift towards more complex studies involving multiple modalities. However, there is still a lack of readily available datasets with high-quality audiovisual stimuli. In this paper, we present GameVibe, a novel affect corpus which consists of multimodal audiovisual stimuli, including in-game behavioural observations and third-person affect labels for viewer engagement. The corpus consists of videos from a diverse set of publicly available gameplay sessions across 30 games, with particular attention to ensure high-quality stimuli with good audiovisual and gameplay diversity. Furthermore, we present an analysis on the reliability of the annotators in terms of inter-annotator agreement.
- Abstract(参考訳): オンラインビデオとストリーミングのプラットフォームが成長を続ける中、情緒的コンピューティングの研究は、複数のモダリティを含むより複雑な研究へとシフトしてきた。
しかし、高品質なオーディオ視覚刺激を持つデータセットがまだ不足している。
本稿では,ゲーム内行動観察や視聴者エンゲージメントのための3人称感情ラベルを含む,マルチモーダル・オーディオ視覚刺激からなる新しい感情コーパスであるGameVibeを提案する。
コーパスは、30のゲームにまたがる様々な公開ゲームプレイセッションのビデオで構成されており、高品質な刺激と優れたオーディオ視覚とゲームプレイの多様性を確実にするために特に注目されている。
さらに、アノテータ間の合意の観点から、アノテータの信頼性について分析する。
関連論文リスト
- Unsupervised Video Highlight Detection by Learning from Audio and Visual Recurrence [13.2968942989609]
手動のアノテーションを不要にしながら、教師なしのビデオハイライト検出に重点を置いている。
クラスタリング手法により、ビデオの擬似カテゴリを特定し、各ビデオの擬似ハイライトスコアを計算する。
また、視覚的特徴を用いて、各ビデオの視覚的擬似ハイライトスコアも計算する。
論文 参考訳(メタデータ) (2024-07-18T23:09:14Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - CASP-Net: Rethinking Video Saliency Prediction from an
Audio-VisualConsistency Perceptual Perspective [30.995357472421404]
Video Saliency Prediction (VSP)は、人間の脳の選択的注意機構を模倣する。
多くのVSP法は視覚と音声のモーダルのセマンティックな相関性を利用するが、音声・視覚の内在性の時間的矛盾による負の効果は無視する。
多感覚情報における生物学的不整合補正にインスパイアされ,一貫性に配慮した音声視線量予測ネットワーク(CASP-Net)が提案される。
論文 参考訳(メタデータ) (2023-03-11T09:29:57Z) - Predicting emotion from music videos: exploring the relative
contribution of visual and auditory information to affective responses [0.0]
本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)を紹介する。
データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。
論文 参考訳(メタデータ) (2022-02-19T07:36:43Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。