論文の概要: ARIC: An Activity Recognition Dataset in Classroom Surveillance Images
- arxiv url: http://arxiv.org/abs/2410.12337v1
- Date: Wed, 16 Oct 2024 07:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:15.860722
- Title: ARIC: An Activity Recognition Dataset in Classroom Surveillance Images
- Title(参考訳): ARIC:教室監視画像における活動認識データセット
- Authors: Linfeng Xu, Fanman Meng, Qingbo Wu, Lili Pan, Heqian Qiu, Lanxiao Wang, Kailong Chen, Kanglei Geng, Yilei Qian, Haojie Wang, Shuchang Zhou, Shimou Ling, Zejia Liu, Nanlin Chen, Yingjie Xu, Shaoxu Cheng, Bowen Tan, Ziyong Xu, Hongliang Li,
- Abstract要約: 私たちはARIC(Activity Recognition In Classroom)と呼ばれる教室監視画像行動認識に焦点を当てた新しいデータセットを構築した。
ARICデータセットには、複数の視点、32のアクティビティカテゴリ、3つのモダリティ、現実世界の教室シナリオの利点がある。
我々は、ARICデータセットが、オープンな教育シナリオの分析と研究のファシリテーターとして機能することを願っている。
- 参考スコア(独自算出の注目度): 19.586321497367294
- License:
- Abstract: The application of activity recognition in the ``AI + Education" field is gaining increasing attention. However, current work mainly focuses on the recognition of activities in manually captured videos and a limited number of activity types, with little attention given to recognizing activities in surveillance images from real classrooms. Activity recognition in classroom surveillance images faces multiple challenges, such as class imbalance and high activity similarity. To address this gap, we constructed a novel multimodal dataset focused on classroom surveillance image activity recognition called ARIC (Activity Recognition In Classroom). The ARIC dataset has advantages of multiple perspectives, 32 activity categories, three modalities, and real-world classroom scenarios. In addition to the general activity recognition tasks, we also provide settings for continual learning and few-shot continual learning. We hope that the ARIC dataset can act as a facilitator for future analysis and research for open teaching scenarios. You can download preliminary data from https://ivipclab.github.io/publication_ARIC/ARIC.
- Abstract(参考訳): 「AI+教育」分野における活動認識の応用が注目されている。
しかし,本研究は,手動撮影ビデオにおける活動の認識と,少数の活動タイプに着目し,実際の教室からの監視画像における活動の認識にはほとんど注意を払わない。
教室の監視画像における活動認識は、クラス不均衡や高い活動類似性など、複数の課題に直面している。
このギャップに対処するために,ARIC(Activity Recognition In Classroom)と呼ばれる,教室の監視画像のアクティビティ認識に焦点を当てた,新しいマルチモーダルデータセットを構築した。
ARICデータセットには、複数の視点、32のアクティビティカテゴリ、3つのモダリティ、現実世界の教室シナリオの利点がある。
一般的な活動認識タスクに加えて,連続学習や数発連続学習の設定も提供する。
我々は、ARICデータセットが、オープンな教育シナリオの分析と研究のファシリテーターとして機能することを願っている。
https://ivipclab.github.io/publication_ARIC/ARICから事前データをダウンロードすることができる。
関連論文リスト
- Few-Shot Continual Learning for Activity Recognition in Classroom Surveillance Images [13.328067147864092]
実際の教室環境では、通常の授業活動が多くのサンプルを担っているのに対して、食事のような稀な非教育活動は現れ続けている。
これは、通常の授業活動を忘れることなく、少数のサンプルから非教育活動を学ぶことができるモデルを必要とする。
論文 参考訳(メタデータ) (2024-09-05T08:55:56Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - Action-slot: Visual Action-centric Representations for Multi-label Atomic Activity Recognition in Traffic Scenes [23.284478293459856]
Action-Slotは、視覚的なアクション中心の表現を学ぶスロットアテンションベースのアプローチである。
私たちのキーとなるアイデアは、原子活動が起こる領域に注意を払うことができるアクションスロットを設計することです。
この制限に対処するため,OATSより4倍大きいTACOという合成データセットを収集した。
論文 参考訳(メタデータ) (2023-11-29T05:28:05Z) - Query by Activity Video in the Wild [52.42177539947216]
現在のクェリ・バイ・アクティビティ・ビデオの文献では、埋め込みを学ぶ際に、すべてのアクティビティが十分なラベル付き例を持っているという仮定が一般的である。
本稿では,アクティビティ検索における不均衡なシナリオを明示的に扱う視覚意味埋め込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T10:26:36Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Towards Continual Egocentric Activity Recognition: A Multi-modal
Egocentric Activity Dataset for Continual Learning [21.68009790164824]
UESTC-MMEA-CLという連続学習のためのマルチモーダル・エゴセントリックな活動データセットを提案する。
ビデオ、加速度計、ジャイロスコープの同期データを含み、32種類の日常活動が10人の参加者によって行われる。
RGB, 加速度, ジャイロスコープの3つのモードを別々に使用した場合に, エゴセントリックな活動認識の結果が報告される。
論文 参考訳(メタデータ) (2023-01-26T04:32:00Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。