論文の概要: BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Behavioural Change
- arxiv url: http://arxiv.org/abs/2505.19328v2
- Date: Thu, 29 May 2025 11:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.727211
- Title: BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Behavioural Change
- Title(参考訳): 行動変化のためのビデオにおける環境・衛生認識のためのBAHデータセット
- Authors: Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan, Masoumeh Sharafi, Muhammad Haseeb Aslam, Marco Pedersoli, Alessandro Lameiras Koerich, Simon L Bacon, Eric Granger,
- Abstract要約: 本稿では,ビデオ中のA/Hの主観的マルチモーダル認識のために収集された,最初の行動的環境・衛生(BAH)データセットを紹介する。
BAHは1,118本、合計8.26時間、A/H1.5時間である。
マルチモーダル・セットアップにおけるフレームレベルのBAHとビデオレベルの認識、ゼロショット予測、教師なしドメイン適応を用いたパーソナライズのための結果のベースライン。
- 参考スコア(独自算出の注目度): 47.43153997980335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recognizing complex emotions linked to ambivalence and hesitancy (A/H) can play a critical role in the personalization and effectiveness of digital behaviour change interventions. These subtle and conflicting emotions are manifested by a discord between multiple modalities, such as facial and vocal expressions, and body language. Although experts can be trained to identify A/H, integrating them into digital interventions is costly and less effective. Automatic learning systems provide a cost-effective alternative that can adapt to individual users, and operate seamlessly within real-time, and resource-limited environments. However, there are currently no datasets available for the design of ML models to recognize A/H. This paper introduces a first Behavioural Ambivalence/Hesitancy (BAH) dataset collected for subject-based multimodal recognition of A/H in videos. It contains videos from 224 participants captured across 9 provinces in Canada, with different age, and ethnicity. Through our web platform, we recruited participants to answer 7 questions, some of which were designed to elicit A/H while recording themselves via webcam with microphone. BAH amounts to 1,118 videos for a total duration of 8.26 hours with 1.5 hours of A/H. Our behavioural team annotated timestamp segments to indicate where A/H occurs, and provide frame- and video-level annotations with the A/H cues. Video transcripts and their timestamps are also included, along with cropped and aligned faces in each frame, and a variety of participants meta-data. We include results baselines for BAH at frame- and video-level recognition in multi-modal setups, in addition to zero-shot prediction, and for personalization using unsupervised domain adaptation. The limited performance of baseline models highlights the challenges of recognizing A/H in real-world videos. The data, code, and pretrained weights are available.
- Abstract(参考訳): アンビバレンスとヘシタシー(A/H)に関連する複雑な感情を認識することは、デジタル行動変化介入のパーソナライズと効果において重要な役割を果たす。
これらの微妙で矛盾する感情は、顔や声の表情やボディランゲージといった複数のモダリティの相違によって表される。
専門家はA/Hを特定するように訓練することができるが、それらをデジタル介入に統合することは費用がかかり、効果が低い。
自動学習システムは、個々のユーザに適応し、リアルタイムでリソース制限のある環境でシームレスに運用できるコスト効率の良い代替手段を提供する。
しかし、現在、A/Hを認識するMLモデルの設計のためのデータセットは存在しない。
本稿では,ビデオ中のA/Hの主観的マルチモーダル認識のために収集された,最初の行動的環境・衛生(BAH)データセットを紹介する。
このビデオには、カナダの9つの州で、年齢や民族の異なる224人の参加者の映像が収められている。
Webプラットフォームを通じて参加者を募集し、7つの質問に答えました。
BAHは1,118本、合計8.26時間、A/H1.5時間である。
私たちの行動チームは、A/Hの発生場所を示すためにタイムスタンプセグメントをアノテートし、A/Hキューでフレームレベルのアノテーションとビデオレベルのアノテーションを提供します。
ビデオの書き起こしとそのタイムスタンプや、各フレームのトリミングされた顔、アライメントされた顔、さまざまな参加者のメタデータも含んでいる。
マルチモーダル・セットアップにおけるフレームレベルのBAHとビデオレベルの認識において、ゼロショット予測に加えて、教師なしドメイン適応を用いたパーソナライズのための結果のベースラインを含める。
ベースラインモデルの限られた性能は、現実世界のビデオにおけるA/H認識の課題を強調している。
データ、コード、事前訓練された重み付けが利用可能だ。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding [25.4933695784155]
ビデオの創造性と内容の理解はしばしば個人によって異なり、年齢、経験、性別によって焦点や認知レベルが異なる。
実世界のアプリケーションとのギャップを埋めるために,ビデオデータセット用の大規模主観応答指標を導入する。
我々は,異なるユーザ間での映像コンテンツの認知的理解度を分析し,評価するためのタスクとプロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-11T03:00:26Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - Improved Actor Relation Graph based Group Activity Recognition [0.0]
人間の行動やグループ活動の詳細な説明は必須情報であり、リアルタイムCCTVビデオ監視、医療、スポーツビデオ分析などに利用することができる。
本研究では,一対のアクターの外観的類似性とアクターの位置を学習することで,グループ活動認識を主眼とする映像理解手法を提案する。
論文 参考訳(メタデータ) (2020-10-24T19:46:49Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。