Fugu-MT 論文翻訳(概要): Leveraging Vision-Language Models to Detect Attention in Educational Videos

論文の概要: Leveraging Vision-Language Models to Detect Attention in Educational Videos

arxiv url: http://arxiv.org/abs/2605.20211v1
Date: Mon, 20 Apr 2026 08:11:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 12:34:33.975928
Title: Leveraging Vision-Language Models to Detect Attention in Educational Videos
Title（参考訳）: 教育用ビデオにおける注意検出のための視覚言語モデルの導入
Authors: Gabriel Becquet, Sébastien Lallé, Vanda Luengo, Ali Abou-Hassan,
Abstract要約: 教育用アイトラッキングデータセットを用いて、重畳された視線データを用いて映像コンテンツを直接分析する。このアプローチは、基礎モデルのセマンティック推論機能を活用して、ビデオストリーム内の学習者の焦点を文脈化することを目的としている。
参考スコア（独自算出の注目度）: 0.2609784101826761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Educational videos are a cornerstone of remote and blended learning. However, learners' fluctuating attention remains a significant barrier to effective information retention. Prior research has attempted to mitigate this by detecting and reacting to attention loss at runtime using eye tracking. Such detection has been based so far on classical machine learning classifiers trained on engineered features, such as summary statistics over learners' fixations and saccades. These methods have struggled to capture the complex, temporal nature of learner engagement, thus exhibiting moderate prediction performance. In this study, we aim to advance the detection of attention by shifting from standard engineered features to a multimodal foundation models. Using an educational eye-tracking dataset (N = 70), we investigate a novel methodology that utilizes a Vision-Language Model (VLM) to analyze video content directly with superimposed gaze data. This approach aims to leverage the semantic reasoning capabilities of foundation models to contextualize learner focus within the video stream. We evaluate the performance of this VLM-based approach using several prompting strategies with Gemini 3, but ultimately found that none of them could outperform statistical baselines. Our results provide new insights into the limitations of using VLMs for real-time educational diagnostics.
Abstract（参考訳）: 教育ビデオは遠隔学習とブレンド学習の基盤となっている。しかし、学習者の変動する注意力は、効果的な情報保持にとって重要な障壁である。従来の研究は、視線追跡を用いて、実行時の注意喪失を検出し、反応させることによってこれを緩和しようと試みてきた。このような検出は、学習者の固定やササードに関する要約統計など、工学的特徴に基づいて訓練された古典的な機械学習分類器に基づいている。これらの手法は、学習者のエンゲージメントの複雑で時間的な性質を捉え、適度な予測性能を示すのに苦労してきた。本研究では,標準工学的特徴からマルチモーダル基礎モデルへシフトすることで,注目の検出を推し進めることを目的とする。教育用視線追跡データセット(N = 70)を用いて、視覚言語モデル(VLM)を用いて、重畳された視線データを用いて映像コンテンツを直接解析する手法について検討する。このアプローチは、基礎モデルのセマンティック推論機能を活用して、ビデオストリーム内の学習者の焦点を文脈化することを目的としている。 Gemini 3 を用いたいくつかのプロンプト戦略を用いて,この VLM ベースの手法の性能評価を行った。本研究は,VLMを用いたリアルタイム教育診断の限界について,新たな知見を提供するものである。

関連論文リスト

No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T12:54:52Z)
Object Detection with Multimodal Large Vision-Language Models: An In-depth Review [3.2882817259131403]
大規模視覚言語モデル(LVLM)における言語と視覚の融合は、ディープラーニングに基づく物体検出に革命をもたらした。この詳細なレビューでは、LVLMの最先端技術に関する構造化された調査が紹介されている。
論文参考訳（メタデータ） (2025-08-25T17:21:00Z)
Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
From Sight to Insight: Unleashing Eye-Tracking in Weakly Supervised Video Salient Object Detection [60.11169426478452]
本稿では,弱い監督下での健全な物体の検出を支援するために,固定情報を導入することを目的とする。特徴学習過程における位置と意味のガイダンスを提供するために,位置と意味の埋め込み (PSE) モジュールを提案する。 Intra-Inter Mixed Contrastive (MCII)モデルは、弱い監督下での時間的モデリング能力を改善する。
論文参考訳（メタデータ） (2025-06-30T05:01:40Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文参考訳（メタデータ） (2022-07-16T19:25:41Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Unsupervised Learning of Video Representations via Dense Trajectory Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文参考訳（メタデータ） (2020-06-28T22:23:03Z)
Continual Learning for Anomaly Detection in Surveillance Videos [36.24563211765782]
本稿では,移動学習と連続学習を用いた監視ビデオのオンライン異常検出手法を提案する。提案アルゴリズムは,移動学習のためのニューラルネットワークモデルの特徴抽出能力と,統計的検出手法の連続学習能力を利用する。
論文参考訳（メタデータ） (2020-04-15T16:41:20Z)
Any-Shot Sequential Anomaly Detection in Surveillance Videos [36.24563211765782]
本稿では,トランスファーラーニングとノンショットラーニングを用いた監視ビデオのオンライン異常検出手法を提案する。提案アルゴリズムは,トランスファー学習のためのニューラルネットワークモデルの特徴抽出能力と,統計的検出手法のノンショット学習能力を利用する。
論文参考訳（メタデータ） (2020-04-05T02:15:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。