論文の概要: Towards Student Actions in Classroom Scenes: New Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2409.00926v1
- Date: Mon, 2 Sep 2024 03:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:21:03.075157
- Title: Towards Student Actions in Classroom Scenes: New Dataset and Baseline
- Title(参考訳): 授業場面における学生行動に向けて:新しいデータセットとベースライン
- Authors: Zhuolin Tan, Chenqiang Gao, Anyong Qin, Ruixin Chen, Tiecheng Song, Feng Yang, Deyu Meng,
- Abstract要約: 複雑な教室シーンを対象とした,SAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
- 参考スコア(独自算出の注目度): 43.268586725768465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing student actions is an important and challenging task in educational research. Existing efforts have been hampered by the lack of accessible datasets to capture the nuanced action dynamics in classrooms. In this paper, we present a new multi-label student action video (SAV) dataset for complex classroom scenes. The dataset consists of 4,324 carefully trimmed video clips from 758 different classrooms, each labeled with 15 different actions displayed by students in classrooms. Compared to existing behavioral datasets, our dataset stands out by providing a wide range of real classroom scenarios, high-quality video data, and unique challenges, including subtle movement differences, dense object engagement, significant scale differences, varied shooting angles, and visual occlusion. The increased complexity of the dataset brings new opportunities and challenges for benchmarking action detection. Innovatively, we also propose a new baseline method, a visual transformer for enhancing attention to key local details in small and dense object regions. Our method achieves excellent performance with mean Average Precision (mAP) of 67.9\% and 27.4\% on SAV and AVA, respectively. This paper not only provides the dataset but also calls for further research into AI-driven educational tools that may transform teaching methodologies and learning outcomes. The code and dataset will be released at https://github.com/Ritatanz/SAV.
- Abstract(参考訳): 学生行動の分析は、教育研究において重要かつ困難な課題である。
既存の取り組みは、教室の微妙なアクションダイナミクスを捉えるために、アクセス可能なデータセットが欠如していることによって妨げられている。
本稿では,複雑な教室シーンを対象としたSAV(Multi-label student action video)データセットを提案する。
データセットは、758の教室から、4,324の慎重にトリミングされたビデオクリップで構成され、それぞれに15の教室で生徒が表示するアクションがラベル付けされている。
既存の行動データセットと比較して、我々のデータセットは、さまざまな実際の教室シナリオ、高品質のビデオデータ、微妙な動きの違い、密集した物体のエンゲージメント、大きなスケールの違い、様々な射撃角度、視覚的閉塞など、ユニークな課題を提供することで際立っている。
データセットの複雑さが増大すると、アクション検出をベンチマークする新たな機会と課題がもたらされる。
また,小型で高密度な対象領域における局所的な重要な細部への注意を高めるための,新しいベースライン手法であるビジュアルトランスフォーマーを提案する。
平均精度は67.9 %, 平均精度は27.4 %, 平均精度は67.9 %, 平均精度は27.4 %であった。
この論文は、データセットを提供するだけでなく、教育方法論や学習成果を変革するAI駆動型教育ツールのさらなる研究も求めている。
コードとデータセットはhttps://github.com/Ritatanz/SAVで公開される。
関連論文リスト
- Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for
Object-Centric Learning [41.09407455527254]
OCTScenes と呼ばれるオブジェクト中心学習のためのテーブルトップシーンの多用途実世界のデータセットを提案する。
OCTScenesには5000のテーブルトップシーンがあり、合計で15のオブジェクトがある。
オブジェクト中心学習手法の比較、評価、分析のためのベンチマークとして、慎重に設計されている。
論文 参考訳(メタデータ) (2023-06-16T08:26:57Z) - Uncertainty Aware Active Learning for Reconfiguration of Pre-trained
Deep Object-Detection Networks for New Target Domains [0.0]
物体検出はコンピュータビジョンタスクの最も重要かつ基本的な側面の1つである。
オブジェクト検出モデルのトレーニングデータを効率的に取得するために、多くのデータセットは、ビデオフォーマットでアノテーションのないデータを取得することを選択します。
ビデオからすべてのフレームに注釈を付けるのは、多くのフレームがモデルが学ぶのに非常によく似た情報を含んでいるため、費用がかかり非効率である。
本稿では,この問題に対処するためのオブジェクト検出モデルのための新しい能動学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:14:10Z) - Revisiting Deep Active Learning for Semantic Segmentation [37.3546941940388]
本研究では,本論文で提案する各種能動的学習目標の性能について,データ分布が決定的であることを示す。
半教師付き学習とアクティブラーニングの統合は,2つの目標が整列した際の性能向上を実証する。
論文 参考訳(メタデータ) (2023-02-08T14:23:37Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - Learning Disentangled Representations of Video with Missing Data [17.34839550557689]
本稿では,DIVE(Disentangled Imputed Video AutoEncoder)について紹介する。
具体的には、DIVEは遅延変数を導入し、隠れたビデオ表現を静的でダイナミックな外観、ポーズ、各オブジェクトの欠落要素に分解する。
さまざまな不足シナリオを持つ移動MNISTデータセットでは、DIVEは、アートベースラインの状態をかなりのマージンで上回る。
論文 参考訳(メタデータ) (2020-06-23T23:54:49Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。