論文の概要: Can LLMs Reason About Attention? Towards Zero-Shot Analysis of Multimodal Classroom Behavior
- arxiv url: http://arxiv.org/abs/2604.03401v1
- Date: Fri, 03 Apr 2026 19:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.55678
- Title: Can LLMs Reason About Attention? Towards Zero-Shot Analysis of Multimodal Classroom Behavior
- Title(参考訳): LLMは意図に反するか? : マルチモーダル教室行動のゼロショット分析に向けて
- Authors: Nolan Platt, Sehrish Nizamani, Alp Tural, Elif Tural, Saad Nizamani, Andrew Katz, Yoonje Lee, Nada Basit,
- Abstract要約: 本稿では,学生の注意力に関する洞察をビデオから抽出するプライバシー保護パイプラインを提案する。
本システムは,骨格抽出にOpenPose,視覚的注意推定にGaze-LLEを用いて,単一のGPU上で動作する。
QwQ-32B-Reasoningは講義セグメント間の学生行動のゼロショット解析を行う。
- 参考スコア(独自算出の注目度): 1.1242503819703258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding student engagement usually requires time-consuming manual observation or invasive recording that raises privacy concerns. We present a privacy-preserving pipeline that analyzes classroom videos to extract insights about student attention, without storing any identifiable footage. Our system runs on a single GPU, using OpenPose for skeletal extraction and Gaze-LLE for visual attention estimation. Original video frames are deleted immediately after pose extraction, thus only geometric coordinates (stored as JSON) are retained, ensuring compliance with FERPA. The extracted pose and gaze data is processed by QwQ-32B-Reasoning, which performs zero-shot analysis of student behavior across lecture segments. Instructors access results through a web dashboard featuring attention heatmaps and behavioral summaries. Our preliminary findings suggest that LLMs may show promise for multimodal behavior understanding, although they still struggle with spatial reasoning about classroom layouts. We discuss these limitations and outline directions for improving LLM spatial comprehension in educational analytics contexts.
- Abstract(参考訳): 学生のエンゲージメントを理解するには、通常、時間を要する手動の観察や、プライバシー上の懸念を引き起こす侵入的な記録が必要である。
本稿では,学生の注意力に関する洞察を,識別可能な映像を記憶することなく,教室のビデオを分析して分析するプライバシー保護パイプラインを提案する。
本システムは,骨格抽出にOpenPose,視覚的注意推定にGaze-LLEを用いて,単一のGPU上で動作する。
オリジナルビデオフレームはポーズ抽出直後に削除されるため、幾何座標(JSONとして格納される)のみが保持され、FERPAへの準拠が保証される。
抽出したポーズと視線データをQwQ-32B-Reasoningにより処理し、講義セグメント間で生徒の振る舞いをゼロショット解析する。
インストラクタは、注目のヒートマップと行動の要約を特徴とするWebダッシュボードを通じて結果にアクセスする。
予備的な知見は,LLMが教室レイアウトの空間的推論に苦慮しているにもかかわらず,マルチモーダルな行動理解の可能性を示唆している。
本稿では,これらの制約について論じ,LLMの空間的理解を改善するための方向性を教育分析の文脈で概説する。
関連論文リスト
- Privacy Beyond Pixels: Latent Anonymization for Privacy-Preserving Video Understanding [56.369026347458835]
本稿では,ビデオ基盤モデルにおける視覚的プライバシ保護の新たな定式化について紹介する。
入力ピクセルレベルの匿名化に関する現在のプライバシー保護手法では、ユーティリティビデオモデル全体を再トレーニングする必要がある。
軽量な Anonym Adapter Module (AAM) は、一般的なタスクユーティリティを維持しながら、ビデオ機能からプライベート情報を除去する。
論文 参考訳(メタデータ) (2025-11-11T18:56:27Z) - Evaluation of Vision-LLMs in Surveillance Video [8.750453732584491]
本稿では視覚言語モデル(VLM)の空間的推論について検討する。
これは、スパース2Dビデオからダイナミックな3Dシーンを解釈する、具体的認識課題に対処する。
UCF-Crime と RWF-2000 の4つのオープンモデルについて,プロンプトおよびプライバシ保護条件下で評価した。
論文 参考訳(メタデータ) (2025-10-27T10:27:02Z) - Real-time estimation of overt attention from dynamic features of the face using deep-learning [0.0]
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定した。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
論文 参考訳(メタデータ) (2024-09-19T20:49:39Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - Attention Based Video Summaries of Live Online Zoom Classes [7.753233602510337]
本稿では,大学生がオンライン講義,チュートリアル,実験室,その他のライブセッションからより多くの情報を得るためのシステムについて述べる。
私たちは、ライブZoomセッション中にラップトップ上の注意レベルをログし、それらのライブセッションのパーソナライズされたビデオ要約を提供する。
顔の注意分析ソフトウェアを使用して、学生の注意が一定の閾値以下にある部分だけからなるパーソナライズされたビデオ要約を作成する。
論文 参考訳(メタデータ) (2021-01-15T23:28:52Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。