論文の概要: WEAR: A Multimodal Dataset for Wearable and Egocentric Video Activity
Recognition
- arxiv url: http://arxiv.org/abs/2304.05088v1
- Date: Tue, 11 Apr 2023 09:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:41:56.224365
- Title: WEAR: A Multimodal Dataset for Wearable and Egocentric Video Activity
Recognition
- Title(参考訳): WEAR: ウェアラブルとエゴセントリックなビデオアクティビティ認識のためのマルチモーダルデータセット
- Authors: Marius Bock, Michael Moeller, Kristof Van Laerhoven, Hilde Kuehne
- Abstract要約: We introduced WEAR, a benchmark dataset for both vision- and wearable-based Human Activity Recognition (HAR)。
このデータセットは、計18人の参加者から収集されていない慣性(アクセラレーション)と10の異なる外部で記録されたカメラ(エゴセントリックビデオ)データを用いて、合計18のワークアウトアクティビティを実行するデータで構成されている。
その結果、視覚変換器は慣性データだけでなく、単純な結合によって両方のモダリティを融合させるアーキテクチャとしても機能することを示す。
- 参考スコア(独自算出の注目度): 17.580887762720888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though research has shown the complementarity of camera- and inertial-based
data, datasets which offer both modalities remain scarce. In this paper we
introduce WEAR, a multimodal benchmark dataset for both vision- and
wearable-based Human Activity Recognition (HAR). The dataset comprises data
from 18 participants performing a total of 18 different workout activities with
untrimmed inertial (acceleration) and camera (egocentric video) data recorded
at 10 different outside locations. WEAR features a diverse set of activities
which are low in inter-class similarity and, unlike previous egocentric
datasets, not defined by human-object-interactions nor originate from
inherently distinct activity categories. Provided benchmark results reveal that
single-modality architectures have different strengths and weaknesses in their
prediction performance. Further, in light of the recent success of
transformer-based video action detection models, we demonstrate their
versatility by applying them in a plain fashion using vision, inertial and
combined (vision + inertial) features as input. Results show that vision
transformers are not only able to produce competitive results using only
inertial data, but also can function as an architecture to fuse both modalities
by means of simple concatenation, with the multimodal approach being able to
produce the highest average mAP, precision and close-to-best F1-scores. Up
until now, vision-based transformers have neither been explored in inertial nor
in multimodal human activity recognition, making our approach the first to do
so. The dataset and code to reproduce experiments is publicly available via:
mariusbock.github.io/wear
- Abstract(参考訳): カメラと慣性ベースのデータの相補性は研究されているが、両方のモダリティを提供するデータセットは乏しい。
本稿では,視覚とウェアラブルをベースとしたヒューマンアクティビティ認識(HAR)のためのマルチモーダルベンチマークデータセットWEARを紹介する。
データセットは、外10箇所で記録された未トリミング慣性(加速度)とカメラ(エゴセントリックビデオ)データを用いて、合計18の異なるトレーニング活動を行う18人の参加者のデータを含む。
WEARは、クラス間の類似性が低く、以前の自我中心のデータセットとは異なり、人間とオブジェクトの相互作用によって定義されておらず、本質的に異なるアクティビティカテゴリから派生している。
ベンチマークの結果、シングルモダリティアーキテクチャは予測性能の長所と短所が異なることが判明した。
さらに, 変圧器を用いた映像動作検出モデルの最近の成功を踏まえ, 視覚, 慣性, 複合(視覚+慣性)機能を入力として平易な方法で適用することにより, その汎用性を示す。
その結果、視覚トランスフォーマーは慣性データのみを使用して競争力のある結果を生成することができるだけでなく、単純な結合によって両方のモダリティを融合するアーキテクチャとして機能し、マルチモーダルアプローチは最高平均マップ、精度、最高に近いf1-scoreを生成することができる。
これまで、視覚ベースのトランスフォーマーは慣性やマルチモーダルな人間の活動認識では研究されておらず、私たちのアプローチは初めてです。
mariusbock.github.io/wearを通じて実験を再現するデータセットとコードが公開されている。
関連論文リスト
- Advancing Location-Invariant and Device-Agnostic Motion Activity
Recognition on Wearable Devices [6.557453686071467]
センサ位置をまたいだ運動モデルの一般化可能性に関する総合的な評価を行う。
我々の分析は、この課題を強調し、位置不変モデルを構築する上で重要な位置を特定する。
本稿では,センサ配置に関係なく,デバイス上での動作モデルを単一モデルから91.41%のフレームレベルF1スコアに展開する。
論文 参考訳(メタデータ) (2024-02-06T05:10:00Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - VALERIE22 -- A photorealistic, richly metadata annotated dataset of
urban environments [5.439020425819001]
VALERIEツールパイプラインは、ドメイン固有の要素の理解に寄与するために開発された合成データジェネレータである。
VALERIE22データセットは、フォトリアリスティックセンサーシミュレーションを提供するVALERIEプロシージャツールパイプラインで生成された。
データセットは独自のリッチなメタデータセットを提供し、特定のシーンとセマンティックな特徴の抽出を可能にする。
論文 参考訳(メタデータ) (2023-08-18T15:44:45Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Do I Have Your Attention: A Large Scale Engagement Prediction Dataset
and Baselines [9.896915478880635]
「機械と対話しながら個人によって表される集中、熱意、楽観、情熱の度合いをユーザエンゲージメントと呼ぶ。」
現実の環境で動作可能なエンゲージメント予測システムを構築するためには、リッチで多様なデータセットから学ぶことが不可欠である。
野生データセットEngageNetにおける大規模多面的エンゲージメントを提案する。
論文 参考訳(メタデータ) (2023-02-01T13:25:54Z) - Towards Continual Egocentric Activity Recognition: A Multi-modal
Egocentric Activity Dataset for Continual Learning [21.68009790164824]
UESTC-MMEA-CLという連続学習のためのマルチモーダル・エゴセントリックな活動データセットを提案する。
ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。
RGB, 加速度, ジャイロスコープの3つのモードを別々に使用した場合に, エゴセントリックな活動認識の結果が報告される。
論文 参考訳(メタデータ) (2023-01-26T04:32:00Z) - Video-based Pose-Estimation Data as Source for Transfer Learning in
Human Activity Recognition [71.91734471596433]
オンボディデバイスを用いたヒューマンアクティビティ認識(HAR)は、制約のない環境での特定の人間の行動を特定する。
これまでの研究は、トランスファーラーニングが、少ないデータでシナリオに対処するための良い戦略であることを実証した。
本稿では,人為的位置推定を目的としたデータセットを伝達学習の情報源として用いることを提案する。
論文 参考訳(メタデータ) (2022-12-02T18:19:36Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。