論文の概要: Gaze to Insight: A Scalable AI Approach for Detecting Gaze Behaviours in Face-to-Face Collaborative Learning
- arxiv url: http://arxiv.org/abs/2604.03317v1
- Date: Wed, 01 Apr 2026 10:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.505183
- Title: Gaze to Insight: A Scalable AI Approach for Detecting Gaze Behaviours in Face-to-Face Collaborative Learning
- Title(参考訳): Gaze to Insight: 対面協調学習における迷路行動検出のためのスケーラブルなAIアプローチ
- Authors: Junyuan Liang, Qi Zhou, Sahan Bulathwela, Mutlu Cukurova,
- Abstract要約: 本研究では,対面協調学習における視線行動を自動的に検出するスケーラブルな人工知能手法を提案する。
提案手法は、ビデオデータから生徒の視線行動を検出するために、0.829のF1スコアを達成する。
実環境における学生の協調学習を支援するために,このアプローチがもたらす意味についても論じる。
- 参考スコア(独自算出の注目度): 6.375007428390877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies have illustrated the potential of analysing gaze behaviours in collaborative learning to provide educationally meaningful information for students to reflect on their learning. Over the past decades, machine learning approaches have been developed to automatically detect gaze behaviours from video data. Yet, since these approaches often require large amounts of labelled data for training, human annotation remains necessary. Additionally, researchers have questioned the cross-configuration robustness of machine learning models developed, as training datasets often fail to encompass the full range of situations encountered in educational contexts. To address these challenges, this study proposes a scalable artificial intelligence approach that leverages pretrained and foundation models to automatically detect gaze behaviours in face-to-face collaborative learning contexts without requiring human-annotated data. The approach utilises pretrained YOLO11 for person tracking, YOLOE-26 with text-prompt capability for education-related object detection, and the Gaze-LLE model for gaze target prediction. The results indicate that the proposed approach achieves an F1-score of 0.829 in detecting students' gaze behaviours from video data, with strong performance for laptop-directed gaze and peer-directed gaze, yet weaker performance for other gaze targets. Furthermore, when compared to other supervised machine learning approaches, the proposed method demonstrates superior and more stable performance in complex contexts, highlighting its better cross-configuration robustness. The implications of this approach for supporting students' collaborative learning in real-world environments are also discussed.
- Abstract(参考訳): 従来の研究は、学生が学習を反映するように教育的に意味のある情報を提供するために、協調学習における視線行動を分析する可能性を示してきた。
過去数十年にわたり、ビデオデータから視線行動を自動的に検出する機械学習アプローチが開発されてきた。
しかし、これらのアプローチはトレーニングのために大量のラベル付きデータを必要とすることが多いため、人間のアノテーションは依然として必要である。
さらに、研究者は機械学習モデルのクロスコンフィグレーションロバスト性に疑問を呈している。
これらの課題に対処するため,本研究では,事前学習モデルと基礎モデルを活用したスケーラブルな人工知能アプローチを提案し,人間の注釈データを必要としない対面協調学習コンテキストにおける視線行動を自動的に検出する。
この手法は、人追跡のためのYOLO11、教育関連物体検出のためのテキストプロンプト機能を備えたYOLOE-26、視線目標予測のためのGaze-LLEモデルを利用する。
提案手法は,映像データから生徒の視線行動を検出するために,F1スコアの0.829を達成し,ノートパソコン指向の視線とピア指向の視線では高い性能を示したが,他の視線目標では弱い性能を示した。
さらに、他の教師付き機械学習手法と比較すると、複雑なコンテキストにおいて、より優れた、より安定した性能を示し、より優れたクロスコンフィグレーションロバスト性を示す。
実環境における学生の協調学習を支援するために,このアプローチがもたらす意味についても論じる。
関連論文リスト
- Gaze-Regularized VLMs for Ego-Centric Behavior Understanding [7.281396624646809]
眼球は固定やササードを包含しており、人間の意図や将来の行動に対する重要な洞察を提供する。
本研究では、自我中心の行動理解のための視覚言語モデル(VLM)を強化する、視線規則化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T13:37:28Z) - Using Large Language Models to Detect Socially Shared Regulation of Collaborative Learning [15.567266973412815]
予測モデルを拡張し、埋め込み型アプローチを用いて、社会的に共有された学習行動の制御を自動的に検出する。
我々は,大規模言語モデル(LLM)を要約ツールとして活用し,システムログに整合した学生対話のタスク認識表現を生成する。
その結果, テキストのみの埋め込みは, 実行やグループダイナミクスに関連するSSRLの挙動の検出において, より強力な性能が得られることがわかった。
論文 参考訳(メタデータ) (2026-01-08T00:30:46Z) - Disentangled Generative Graph Representation Learning [51.59824683232925]
本稿では,自己教師型学習フレームワークであるDiGGR(Disentangled Generative Graph Representation Learning)を紹介する。
潜伏要因を学習し、それをグラフマスクモデリングのガイドとして活用することを目的としている。
2つの異なるグラフ学習タスクのための11の公開データセットの実験は、DiGGRが従来よりも一貫して多くの自己教師付きメソッドを上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-24T05:13:02Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Semi-supervised Contrastive Regression for Estimation of Eye Gaze [0.609170287691728]
本稿では、視線方向推定のための半教師付きコントラスト学習フレームワークを開発する。
小さなラベル付きガゼデータセットにより、このフレームワークは、目に見えない顔画像であっても、一般化されたソリューションを見つけることができる。
コントラスト回帰フレームワークは, 視線推定に用いられているいくつかの手法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-05T04:11:38Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Beyond Tracking: Using Deep Learning to Discover Novel Interactions in
Biological Swarms [3.441021278275805]
本稿では,システムレベルの状態を全体像から直接予測するディープ・ネットワーク・モデルを提案する。
結果の予測モデルは、人間の理解した予測モデルに基づいていないため、説明モジュールを使用する。
これは、行動生態学における人工知能の例である。
論文 参考訳(メタデータ) (2021-08-20T22:50:41Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Imitation Learning with Human Eye Gaze via Multi-Objective Prediction [3.5779268406205618]
本稿では,新しい文脈認識型模倣学習アーキテクチャであるGaze Regularized Imitation Learning (GRIL)を提案する。
GRILは人間のデモンストレーションと視線の両方から同時に学習し、視覚的注意が重要なコンテキストを提供するタスクを解決する。
GRILは、最先端の視線に基づく模倣学習アルゴリズムよりも優れており、同時に人間の視覚的注意を予測し、トレーニングデータに存在しないシナリオに一般化する。
論文 参考訳(メタデータ) (2021-02-25T17:13:13Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。