論文の概要: Context Matters: Peer-Aware Student Behavioral Engagement Measurement via VLM Action Parsing and LLM Sequence Classification
- arxiv url: http://arxiv.org/abs/2601.06394v1
- Date: Sat, 10 Jan 2026 02:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.791897
- Title: Context Matters: Peer-Aware Student Behavioral Engagement Measurement via VLM Action Parsing and LLM Sequence Classification
- Title(参考訳): 文脈的問題:VLM行動解析とLLMシーケンス分類によるピアアウェア学生の行動エンゲージメント測定
- Authors: Ahmed Abdelkawy, Ahmed Elsayed, Asem Ali, Aly Farag, Thomas Tretter, Michael McIntyre,
- Abstract要約: ビデオベースの学生エンゲージメント測定のための新しい3段階フレームワークを提案する。
まず,学生の行動認識のための視覚言語モデルの少数の適応について検討する。
第2に,各生徒の2分間の映像を非重複セグメントに分割するために,スライディング時間窓手法を用いる。
第三に、大規模言語モデルを利用して、この一連のアクションを、教室のコンテキストとともに、エンゲージメントまたは非エンゲージメントの学生に属するものとして分類する。
- 参考スコア(独自算出の注目度): 0.6103775976356991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding student behavior in the classroom is essential to improve both pedagogical quality and student engagement. Existing methods for predicting student engagement typically require substantial annotated data to model the diversity of student behaviors, yet privacy concerns often restrict researchers to their own proprietary datasets. Moreover, the classroom context, represented in peers' actions, is ignored. To address the aforementioned limitation, we propose a novel three-stage framework for video-based student engagement measurement. First, we explore the few-shot adaptation of the vision-language model for student action recognition, which is fine-tuned to distinguish among action categories with a few training samples. Second, to handle continuous and unpredictable student actions, we utilize the sliding temporal window technique to divide each student's 2-minute-long video into non-overlapping segments. Each segment is assigned an action category via the fine-tuned VLM model, generating a sequence of action predictions. Finally, we leverage the large language model to classify this entire sequence of actions, together with the classroom context, as belonging to an engaged or disengaged student. The experimental results demonstrate the effectiveness of the proposed approach in identifying student engagement.
- Abstract(参考訳): 授業における生徒の行動を理解することは、教育的質と学生のエンゲージメントを改善するために不可欠である。
既存の学生のエンゲージメントを予測する方法は、学生の振る舞いの多様性をモデル化するために、注釈付きデータを必要とすることが多いが、プライバシーに関する懸念は研究者を独自のデータセットに制限することが多い。
さらに、同僚の行動で表される教室の文脈は無視される。
上記の制限に対処するため,ビデオベースの学生エンゲージメント測定のための新しい3段階フレームワークを提案する。
まず、学生の行動認識のための視覚言語モデルのいくつかの適応について検討し、いくつかのトレーニングサンプルを用いて、アクションカテゴリーの識別を微調整する。
第2に,連続的かつ予測不能な学生行動を扱うために,各生徒の2分間の映像を重複しないセグメントに分割するために,スライディング時間窓手法を用いる。
各セグメントは細調整されたVLMモデルを介してアクションカテゴリを割り当て、一連のアクション予測を生成する。
最後に、大規模言語モデルを利用して、この一連のアクションを、教室のコンテキストとともに、エンゲージメントまたは非エンゲージメントの学生に属するものとして分類する。
実験により,学生のエンゲージメントの同定における提案手法の有効性が示された。
関連論文リスト
- Supervised Contrastive Learning for Ordinal Engagement Measurement [2.166000001057538]
学生のエンゲージメントは、教育プログラムの納入を成功させる上で重要な役割を担っている。
本稿では、クラス不均衡とエンゲージメントレベルへの秩序導入という、この問題における2つの重要な課題を明らかにする。
仮想学習環境におけるビデオベースの学生エンゲージメント測定への新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-05-27T03:49:45Z) - ActFusion: a Unified Diffusion Model for Action Segmentation and Anticipation [66.8640112000444]
時間的アクションセグメンテーションと長期的アクション予測は、ビデオにおけるアクションの時間的分析のための一般的なビジョンタスクである。
本稿では,アクトフュージョンと呼ばれる統合拡散モデルを用いて,アクションセグメンテーションとアクション予測という2つの課題に取り組む。
我々は,映像フレームの後半部分を見えないものとして隠蔽し,学習可能なトークンをこれらのフレームに置き換えて,目に見えない未来を予測する,新たな予測マスク戦略を導入する。
論文 参考訳(メタデータ) (2024-12-05T17:12:35Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Measuring Student Behavioral Engagement using Histogram of Actions [0.0]
提案手法は学生の行動を認識し,学生の行動エンゲージメントレベルを予測する。
学生の行動認識には、人間の骨格を用いて、学生の姿勢と上半身の動きをモデル化する。
トレーニングされた3D-CNNモデルは、2分間のビデオセグメントごとにアクションを認識するために使用される。
論文 参考訳(メタデータ) (2023-07-18T16:37:37Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Bag of States: A Non-sequential Approach to Video-based Engagement
Measurement [7.864500429933145]
学生の行動的・感情的状態は、そのエンゲージメントのレベルを測定するために、きめ細かい時間スケールで分析する必要がある。
既存の多くのアプローチは、ビデオから学生のエンゲージメントを測定するために、繰り返しニューラルネットワーク、時間畳み込みネットワーク、三次元畳み込みニューラルネットワークなどのシーケンシャルモデルとテンポラルモデルを開発した。
本研究では,学生の行動状態と感情状態のみをモデル化・解析し,それらの発生順序をモデル化する。
論文 参考訳(メタデータ) (2023-01-17T07:12:34Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Mitigating Biases in Student Performance Prediction via Attention-Based
Personalized Federated Learning [7.040747348755578]
従来の学習に基づく学生モデリングのアプローチは、データの可用性のバイアスにより、表現不足の学生グループにあまり一般化しない。
本研究では,オンライン学習活動から学生のパフォーマンスを予測する手法を提案し,人種や性別などの異なる集団を対象とした推論精度を最適化する。
論文 参考訳(メタデータ) (2022-08-02T00:22:20Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。