論文の概要: WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity
Recognition
- arxiv url: http://arxiv.org/abs/2304.05088v3
- Date: Tue, 21 Nov 2023 16:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:26:49.470486
- Title: WEAR: An Outdoor Sports Dataset for Wearable and Egocentric Activity
Recognition
- Title(参考訳): WEAR: ウェアラブルとエゴセントリックなアクティビティ認識のための屋外スポーツデータセット
- Authors: Marius Bock, Hilde Kuehne, Kristof Van Laerhoven, Michael Moeller
- Abstract要約: WEARは、視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットである
このデータセットは、計18人の参加者から収集されていない慣性(アクセラレーション)と10の異なる外部で記録されたカメラ(エゴセントリックビデオ)データを用いて、合計18のワークアウトアクティビティを実行するデータで構成されている。
- 参考スコア(独自算出の注目度): 25.113458430281632
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Though research has shown the complementarity of camera- and inertial-based
data, datasets which offer both egocentric video and inertial-based sensor data
remain scarce. In this paper, we introduce WEAR, an outdoor sports dataset for
both vision- and inertial-based human activity recognition (HAR). The dataset
comprises data from 18 participants performing a total of 18 different workout
activities with untrimmed inertial (acceleration) and camera (egocentric video)
data recorded at 10 different outside locations. Unlike previous egocentric
datasets, WEAR provides a challenging prediction scenario marked by purposely
introduced activity variations as well as an overall small information overlap
across modalities. Benchmark results obtained using each modality separately
show that each modality interestingly offers complementary strengths and
weaknesses in their prediction performance. Further, in light of the recent
success of temporal action localization models following the architecture
design of the ActionFormer, we demonstrate their versatility by applying them
in a plain fashion using vision, inertial and combined (vision + inertial)
features as input. Results demonstrate both the applicability of vision-based
temporal action localization models for inertial data and fusing both
modalities by means of simple concatenation, with the combined approach (vision
+ inertial features) being able to produce the highest mean average precision
and close-to-best F1-score. The dataset and code to reproduce experiments is
publicly available via: https://mariusbock.github.io/wear/
- Abstract(参考訳): カメラと慣性に基づくデータの相補性は研究されているが、エゴセントリックなビデオデータと慣性ベースのセンサーデータの両方を提供するデータセットは依然として少ない。
本稿では,視覚と慣性に基づく人間活動認識(HAR)のための屋外スポーツデータセットWEARを紹介する。
データセットは、外10箇所で記録された未トリミング慣性(加速度)とカメラ(エゴセントリックビデオ)データを用いて、合計18の異なるトレーニング活動を行う18人の参加者のデータを含む。
従来のエゴセントリックデータセットとは異なり、wearは、意図的に導入されたアクティビティのバリエーションと、全体的な小さな情報の重複によって特徴付けられる、困難な予測シナリオを提供する。
各モダリティを用いて得られたベンチマーク結果は、各モダリティが予測性能に相補的な強みと弱みを与えることを示す。
さらに,ActionFormerのアーキテクチャ設計による時間的行動ローカライゼーションモデルの成功を踏まえ,視覚,慣性,複合(ビジョン+慣性)機能を入力として,それらを平易な方法で適用することで,それらの汎用性を実証した。
その結果、慣性データに対する視覚に基づく時間的行動局所化モデルの適用性と、単純な結合による両モードの融合の両立が示され、組み合わせたアプローチ(ビジョン+慣性特徴)は最高平均精度と最近値F1スコアを生成できることを示した。
実験を再現するデータセットとコードは、https://mariusbock.github.io/wear/を通じて公開されている。
関連論文リスト
- ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Do I Have Your Attention: A Large Scale Engagement Prediction Dataset
and Baselines [9.896915478880635]
「機械と対話しながら個人によって表される集中、熱意、楽観、情熱の度合いをユーザエンゲージメントと呼ぶ。」
現実の環境で動作可能なエンゲージメント予測システムを構築するためには、リッチで多様なデータセットから学ぶことが不可欠である。
野生データセットEngageNetにおける大規模多面的エンゲージメントを提案する。
論文 参考訳(メタデータ) (2023-02-01T13:25:54Z) - AU-Aware Vision Transformers for Biased Facial Expression Recognition [17.00557858587472]
本研究では,複数のFERデータセットのナイーブな共同トレーニングが個々のFERデータセットのパフォーマンスに有害であることを示す。
AU-ViT(AU-Aware Vision Transformer)を提案する。
私たちのAU-ViTは、RAF-DBで91.10%、AffectNetで65.59%、FERPlusで90.15%という、一般的な3つのデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-11-12T08:58:54Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SelfHAR: Improving Human Activity Recognition through Self-training with
Unlabeled Data [9.270269467155547]
SelfHARは、ラベルなしデータセットを利用して小さなラベル付きデータセットを補完する半教師付きモデルである。
提案手法は教師による自己学習と,ラベル付きデータセットとラベル付きデータセットの知識を融合する。
SelfHARはデータ効率が高く、教師付きアプローチの10倍のラベル付きデータを使用して、同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-02-11T15:40:35Z) - Invariant Feature Learning for Sensor-based Human Activity Recognition [11.334750079923428]
被験者やデバイス間で共有される共通情報を抽出する不変特徴学習フレームワーク(IFLF)を提案する。
実験により、IFLFは、一般的なオープンデータセットと社内データセットをまたいだ主題とデバイスディバージョンの両方を扱うのに効果的であることが示された。
論文 参考訳(メタデータ) (2020-12-14T21:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。