論文の概要: Towards Continual Egocentric Activity Recognition: A Multi-modal
Egocentric Activity Dataset for Continual Learning
- arxiv url: http://arxiv.org/abs/2301.10931v1
- Date: Thu, 26 Jan 2023 04:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:19:31.505005
- Title: Towards Continual Egocentric Activity Recognition: A Multi-modal
Egocentric Activity Dataset for Continual Learning
- Title(参考訳): 連続的エゴセントリック活動認識に向けて--連続学習のためのマルチモーダルエゴセントリック活動データセット
- Authors: Linfeng Xu, Qingbo Wu, Lili Pan, Fanman Meng, Hongliang Li, Chiyuan
He, Hanxin Wang, Shaoxu Cheng, Yu Dai
- Abstract要約: UESTC-MMEA-CLという連続学習のためのマルチモーダル・エゴセントリックな活動データセットを提案する。
ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。
RGB, 加速度, ジャイロスコープの3つのモードを別々に使用した場合に, エゴセントリックな活動認識の結果が報告される。
- 参考スコア(独自算出の注目度): 21.68009790164824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of wearable cameras, a massive collection of
egocentric video for first-person visual perception becomes available. Using
egocentric videos to predict first-person activity faces many challenges,
including limited field of view, occlusions, and unstable motions. Observing
that sensor data from wearable devices facilitates human activity recognition,
multi-modal activity recognition is attracting increasing attention. However,
the deficiency of related dataset hinders the development of multi-modal deep
learning for egocentric activity recognition. Nowadays, deep learning in real
world has led to a focus on continual learning that often suffers from
catastrophic forgetting. But the catastrophic forgetting problem for egocentric
activity recognition, especially in the context of multiple modalities, remains
unexplored due to unavailability of dataset. In order to assist this research,
we present a multi-modal egocentric activity dataset for continual learning
named UESTC-MMEA-CL, which is collected by self-developed glasses integrating a
first-person camera and wearable sensors. It contains synchronized data of
videos, accelerometers, and gyroscopes, for 32 types of daily activities,
performed by 10 participants. Its class types and scale are compared with other
publicly available datasets. The statistical analysis of the sensor data is
given to show the auxiliary effects for different behaviors. And results of
egocentric activity recognition are reported when using separately, and
jointly, three modalities: RGB, acceleration, and gyroscope, on a base network
architecture. To explore the catastrophic forgetting in continual learning
tasks, four baseline methods are extensively evaluated with different
multi-modal combinations. We hope the UESTC-MMEA-CL can promote future studies
on continual learning for first-person activity recognition in wearable
applications.
- Abstract(参考訳): ウェアラブルカメラの急速な発展により、一人称視覚知覚のためのエゴセントリックビデオの膨大なコレクションが利用可能になる。
エゴセントリックなビデオを使って一対一の活動を予測することは、視野の制限、閉塞、不安定な動きなど、多くの課題に直面している。
ウェアラブルデバイスからのセンサデータが人間のアクティビティ認識を促進することを観察するマルチモーダルアクティビティ認識が注目を集めている。
しかしながら、関連するデータセットの欠如は、エゴセントリックなアクティビティ認識のためのマルチモーダルディープラーニングの開発を妨げる。
近年、現実世界のディープラーニングは、しばしば破滅的な忘れ物に悩まされる継続的学習に焦点をあてている。
しかし、エゴセントリックなアクティビティ認識の破滅的な忘れ問題、特に複数のモダリティの文脈では、データセットが使えないため、いまだに未解決のままである。
そこで本研究では,一対一カメラとウェアラブルセンサを統合した自己開発眼鏡を用いて収集した「uestc-mmea-cl」と呼ばれる連続学習のためのマルチモーダル・エゴセントリック・アクティビティデータセットを提案する。
ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。
クラスタイプとスケールは他の公開データセットと比較される。
センサデータの統計的解析は、異なる行動に対する補助効果を示すために与えられる。
また,ベースネットワークアーキテクチャ上でrgb,アクセラレーション,ジャイロスコープの3つのモードを別々に使用した場合に,エゴセントリック活動認識の結果が報告された。
連続学習タスクにおける破滅的な忘れ方を探るために,4つのベースライン手法をマルチモーダルの異なる組み合わせで広範囲に評価した。
UESTC-MMEA-CLはウェアラブルアプリケーションにおける一対一の活動認識のための継続学習の今後の研究を促進することを願っている。
関連論文リスト
- Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - Learning State-Aware Visual Representations from Audible Interactions [39.08554113807464]
自己中心型ビデオデータから表現を学習する自己教師型アルゴリズムを提案する。
音声信号を用いて、より学習しやすい対話の瞬間を識別する。
大規模なエゴセントリックな2つのデータセットに対して、これらのコントリビューションを広範囲に検証する。
論文 参考訳(メタデータ) (2022-09-27T17:57:13Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - Classifying Human Activities using Machine Learning and Deep Learning
Techniques [0.0]
HAR(Human Activity Recognition)は、人間の行動を認識する機械。
HARの課題は、与えられたデータに基づいて人間の活動を分離することの難しさを克服することである。
Long Short-Term Memory(LSTM)、Bi-Directional LS分類器、Recurrent Neural Network(RNN)、Gated Recurrent Unit(GRU)といったディープラーニング技術がトレーニングされている。
実験の結果、機械学習における線形サポートベクトルとディープラーニングにおけるGated Recurrent Unitが、人間の活動認識により良い精度を提供することがわかった。
論文 参考訳(メタデータ) (2022-05-19T05:20:04Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action,
Social Group and Activity Detection [54.696819174421584]
大学構内環境における生活行動の実際の分布を反映したマルチモーダルデータセットであるJRDB-Actを紹介する。
JRDB-Actには280万以上のアクションラベルがある。
JRDB-Actは、現場での対話に基づいて個人をグループ化するタスクに着想を得た社会集団識別アノテーションが付属している。
論文 参考訳(メタデータ) (2021-06-16T14:43:46Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Towards Deep Clustering of Human Activities from Wearables [21.198881633580797]
本研究では,ウェアラブルからの人間行動認識の基本的な問題に対して,教師なしのエンドツーエンド学習戦略を開発する。
本研究では,センサデータの教師なし表現を協調的に学習し,異なる人間の活動に強い意味的対応を持つクラスタ代入を生成する手法の有効性を示す。
論文 参考訳(メタデータ) (2020-08-02T13:55:24Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z) - IMUTube: Automatic Extraction of Virtual on-body Accelerometry from
Video for Human Activity Recognition [12.91206329972949]
IMUTubeは、人間の活動の映像をIMUデータの仮想ストリームに変換する自動処理パイプラインである。
これらの仮想IMUストリームは、人体の様々な場所で加速度計を表現している。
本稿では,実際のIMUデータにより,既知のHARデータセット上での各種モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-29T21:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。