論文の概要: WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity
Recognition
- arxiv url: http://arxiv.org/abs/2304.05088v2
- Date: Fri, 16 Jun 2023 07:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 17:27:21.750203
- Title: WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity
Recognition
- Title(参考訳): WEAR: ウェアラブルとエゴセントリックなアクティビティ認識のための屋外スポーツデータセット
- Authors: Marius Bock, Hilde Kuehne, Kristof Van Laerhoven, Michael Moeller
- Abstract要約: 視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットWEARを紹介する。
このデータセットは、計18人の参加者から収集されていない慣性(アクセラレーション)と10の異なる外部で記録されたカメラ(エゴセントリックビデオ)データを用いて、合計18のワークアウトアクティビティを実行するデータで構成されている。
結果は、慣性データに対する視覚ベースの変換器の適用性と、単純な結合による両方のモダリティの融合の両立を実証した。
- 参考スコア(独自算出の注目度): 17.58088776272089
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Though research has shown the complementarity of camera- and inertial-based
data, datasets which offer both modalities remain scarce. In this paper, we
introduce WEAR, an outdoor sports dataset for both vision- and inertial-based
human activity recognition (HAR). The dataset comprises data from 18
participants performing a total of 18 different workout activities with
untrimmed inertial (acceleration) and camera (egocentric video) data recorded
at 10 different outside locations. Unlike previous egocentric datasets, WEAR
provides a challenging prediction scenario marked by purposely introduced
activity variations as well as an overall small information overlap across
modalities. Provided benchmark results reveal that single-modality
architectures each have different strengths and weaknesses in their prediction
performance. Further, in light of the recent success of transformer-based
temporal action localization models, we demonstrate their versatility by
applying them in a plain fashion using vision, inertial and combined (vision +
inertial) features as input. Results demonstrate both the applicability of
vision-based transformers for inertial data and fusing both modalities by means
of simple concatenation, with the combined approach (vision + inertial
features) being able to produce the highest mean average precision and
close-to-best F1-score. The dataset and code to reproduce experiments is
publicly available via: https://mariusbock.github.io/wear/
- Abstract(参考訳): カメラと慣性ベースのデータの相補性は研究されているが、両方のモダリティを提供するデータセットは乏しい。
本稿では,視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットWEARを紹介する。
データセットは、外10箇所で記録された未トリミング慣性(加速度)とカメラ(エゴセントリックビデオ)データを用いて、合計18の異なるトレーニング活動を行う18人の参加者のデータを含む。
従来のエゴセントリックデータセットとは異なり、wearは、意図的に導入されたアクティビティのバリエーションと、全体的な小さな情報の重複によって特徴付けられる、困難な予測シナリオを提供する。
ベンチマークの結果、シングルモダリティアーキテクチャはそれぞれ、予測性能の長所と短所が異なることが判明した。
さらに,近年の変圧器を用いた時空間行動定位モデルの成功を踏まえ,視覚,慣性,複合的(視覚+慣性)機能を入力として平易な方法で適用することにより,その汎用性を示す。
その結果、慣性データに対する視覚ベースのトランスフォーマーの適用性と、単純な連結による両方のモダリティの融合(ビジョン + 慣性特徴)により、最高平均精度と最高値のf1-scoreを生成できることを示した。
実験を再現するデータセットとコードは、https://mariusbock.github.io/wear/を通じて公開されている。
関連論文リスト
- ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Do I Have Your Attention: A Large Scale Engagement Prediction Dataset
and Baselines [9.896915478880635]
「機械と対話しながら個人によって表される集中、熱意、楽観、情熱の度合いをユーザエンゲージメントと呼ぶ。」
現実の環境で動作可能なエンゲージメント予測システムを構築するためには、リッチで多様なデータセットから学ぶことが不可欠である。
野生データセットEngageNetにおける大規模多面的エンゲージメントを提案する。
論文 参考訳(メタデータ) (2023-02-01T13:25:54Z) - AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-12T08:58:54Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SelfHAR: Improving Human Activity Recognition through Self-training with
Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。
提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。
SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-02-11T15:40:35Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。