論文の概要: Towards Student Actions in Classroom Scenes: New Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2409.00926v2
- Date: Fri, 07 Mar 2025 07:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:20.966762
- Title: Towards Student Actions in Classroom Scenes: New Dataset and Baseline
- Title(参考訳): 授業場面における学生行動に向けて:新しいデータセットとベースライン
- Authors: Zhuolin Tan, Chenqiang Gao, Anyong Qin, Ruixin Chen, Tiecheng Song, Feng Yang, Deyu Meng,
- Abstract要約: 学生アクションビデオデータセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成されており、15の生徒アクションが注釈付けされている。
既存のアクション検出データセットと比較して、SAVデータセットは、幅広い実際の教室シナリオを提供することで際立っている。
本手法は, 平均精度67.9%, 平均精度27.4%, 平均精度27.4%, 平均精度67.9%, 平均精度27.4%で優れた性能を示す。
- 参考スコア(独自算出の注目度): 43.268586725768465
- License:
- Abstract: Analyzing student actions is an important and challenging task in educational research. Existing efforts have been hampered by the lack of accessible datasets to capture the nuanced action dynamics in classrooms. In this paper, we present a new multi-label Student Action Video (SAV) dataset, specifically designed for action detection in classroom settings. The SAV dataset consists of 4,324 carefully trimmed video clips from 758 different classrooms, annotated with 15 distinct student actions. Compared to existing action detection datasets, the SAV dataset stands out by providing a wide range of real classroom scenarios, high-quality video data, and unique challenges, including subtle movement differences, dense object engagement, significant scale differences, varied shooting angles, and visual occlusion. These complexities introduce new opportunities and challenges to advance action detection methods. To benchmark this, we propose a novel baseline method based on a visual transformer, designed to enhance attention to key local details within small and dense object regions. Our method demonstrates excellent performance with a mean Average Precision (mAP) of 67.9% and 27.4% on the SAV and AVA datasets, respectively. This paper not only provides the dataset but also calls for further research into AI-driven educational tools that may transform teaching methodologies and learning outcomes. The code and dataset are released at https://github.com/Ritatanz/SAV.
- Abstract(参考訳): 学生行動の分析は、教育研究において重要かつ困難な課題である。
既存の取り組みは、教室の微妙なアクションダイナミクスを捉えるために、アクセス可能なデータセットが欠如していることによって妨げられている。
本稿では,教室環境におけるアクション検出に特化して設計された,複数ラベルの学生アクションビデオ(SAV)データセットを提案する。
SAVデータセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成されており、15の学生アクションが注釈付けされている。
既存のアクション検出データセットと比較して、SAVデータセットは、さまざまな実際の教室シナリオ、高品質のビデオデータ、微妙な動きの違い、密集したオブジェクトのエンゲージメント、大きなスケールの違い、様々な射撃角度、視覚的閉塞など、ユニークな課題を提供することで際立っている。
これらの複雑さは、行動検出手法の進歩に新たな機会と課題をもたらす。
そこで本研究では,小型で高密度な対象領域における局所的な重要な細部への注意を高めるために,視覚変換器をベースとした新しいベースライン手法を提案する。
本手法は, 平均精度67.9%, 平均精度27.4%, 平均精度27.4%, 平均精度67.9%, 平均精度27.4%で優れた性能を示す。
この論文は、データセットを提供するだけでなく、教育方法論や学習成果を変革するAI駆動型教育ツールのさらなる研究も求めている。
コードとデータセットはhttps://github.com/Ritatanz/SAVで公開されている。
関連論文リスト
- Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for
Object-Centric Learning [41.09407455527254]
OCTScenes と呼ばれるオブジェクト中心学習のためのテーブルトップシーンの多用途実世界のデータセットを提案する。
OCTScenesには5000のテーブルトップシーンがあり、合計で15のオブジェクトがある。
オブジェクト中心学習手法の比較、評価、分析のためのベンチマークとして、慎重に設計されている。
論文 参考訳(メタデータ) (2023-06-16T08:26:57Z) - Revisiting Deep Active Learning for Semantic Segmentation [37.3546941940388]
本研究では,本論文で提案する各種能動的学習目標の性能について,データ分布が決定的であることを示す。
半教師付き学習とアクティブラーニングの統合は,2つの目標が整列した際の性能向上を実証する。
論文 参考訳(メタデータ) (2023-02-08T14:23:37Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Learning Disentangled Representations of Video with Missing Data [17.34839550557689]
本稿では,DIVE(Disentangled Imputed Video AutoEncoder)について紹介する。
具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。
さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
論文 参考訳(メタデータ) (2020-06-23T23:54:49Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。