論文の概要: Real-time estimation of overt attention from dynamic features of the face using deep-learning
- arxiv url: http://arxiv.org/abs/2409.13084v1
- Date: Thu, 19 Sep 2024 20:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:55:39.045938
- Title: Real-time estimation of overt attention from dynamic features of the face using deep-learning
- Title(参考訳): 深層学習による顔の動的特徴からの過度注意のリアルタイム推定
- Authors: Aimar Silvan Ortubay, Lucas C. Parra, Jens Madsen,
- Abstract要約: 遠隔学習への移行に伴い、教師は様々な学生のエンゲージメントに適応するために必要な視覚的フィードバックを失っている。
本稿では,目,頭,顔の動きに基づいて注目度を推定するために,手軽に利用可能な前面映像を提案する。
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Students often drift in and out of focus during class. Effective teachers recognize this and re-engage them when necessary. With the shift to remote learning, teachers have lost the visual feedback needed to adapt to varying student engagement. We propose using readily available front-facing video to infer attention levels based on movements of the eyes, head, and face. We train a deep learning model to predict a measure of attention based on overt eye movements. Specifically, we measure Inter-Subject Correlation of eye movements in ten-second intervals while students watch the same educational videos. In 3 different experiments (N=83) we show that the trained model predicts this objective metric of attention on unseen data with $R^2$=0.38, and on unseen subjects with $R^2$=0.26-0.30. The deep network relies mostly on a student's eye movements, but to some extent also on movements of the brows, cheeks, and head. In contrast to Inter-Subject Correlation of the eyes, the model can estimate attentional engagement from individual students' movements without needing reference data from an attentive group. This enables a much broader set of online applications. The solution is lightweight and can operate on the client side, which mitigates some of the privacy concerns associated with online attention monitoring.
- Abstract(参考訳): 学生は授業中、しばしば集中して漂流する。
効果的な教師はこれを認識し、必要に応じて再入学する。
遠隔学習への移行に伴い、教師は様々な学生のエンゲージメントに適応するために必要な視覚的フィードバックを失っている。
本稿では,目,頭,顔の動きに基づいて注目度を推定するために,手軽に利用できる前面映像を提案する。
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
具体的には、学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定する。
3つの異なる実験 (N=83) において、トレーニングされたモデルは、$R^2$=0.38、$R^2$=0.26-0.30の未確認データに対して、この客観的な計測値を予測する。
深いネットワークは、主に学生の目の動きに依存するが、ある程度は額、頬、頭の動きにも依存する。
対象間の視線相関とは対照的に,各学生の動きからの注意関係を,注意グループからの参照データを必要とせずに推定することができる。
これにより、より広範なオンラインアプリケーションが可能になる。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
関連論文リスト
- Modeling User Preferences via Brain-Computer Interfacing [54.3727087164445]
我々はBrain-Computer Interface技術を用いてユーザの好みを推測し、その注意力は視覚的コンテンツと感情的体験との関連性に相関する。
我々はこれらを,情報検索,生成モデルのパーソナライズされたステアリング,感情経験のクラウドソーシング人口推定など,関連するアプリケーションにリンクする。
論文 参考訳(メタデータ) (2024-05-15T20:41:46Z) - Shifting Focus with HCEye: Exploring the Dynamics of Visual Highlighting and Cognitive Load on User Attention and Saliency Prediction [3.2873782624127834]
本稿では,視覚強調(永続的・動的)と両タスクによる認知負荷が視線行動に及ぼす影響について検討する。
認知負荷の異なる場合、最先端のサリエンシモデルにより、その性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-22T14:45:30Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Peer attention enhances student learning [12.375142583471678]
学生がオンライン授業ビデオを見るときの視覚的注意領域の表示が焦点とエンゲージメントを高めることを示す。
学生は、ピアアテンションの手がかりに従って適応性を維持する。
また、学生の注意力と成功を最適化するために、ピアアテンションモデリングを活用した適応的なオンライン学習介入の設計に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-12-04T21:36:58Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Multi-Head Attention: Collaborate Instead of Concatenate [85.71058762269374]
我々は,頭部が共有投影を学習できる,協調的な多面的アテンション層を提案する。
実験により、キー/クエリの次元の共有は言語理解、機械翻訳、ビジョンに活用できることを確認した。
論文 参考訳(メタデータ) (2020-06-29T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。