論文の概要: Real-time estimation of overt attention from dynamic features of the face using deep-learning
- arxiv url: http://arxiv.org/abs/2409.13084v2
- Date: Wed, 25 Sep 2024 15:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:03:17.501870
- Title: Real-time estimation of overt attention from dynamic features of the face using deep-learning
- Title(参考訳): 深層学習による顔の動的特徴からの過度注意のリアルタイム推定
- Authors: Aimar Silvan Ortubay, Lucas C. Parra, Jens Madsen,
- Abstract要約: 我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定した。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Students often drift in and out of focus during class. Effective teachers recognize this and re-engage them when necessary. With the shift to remote learning, teachers have lost the visual feedback needed to adapt to varying student engagement. We propose using readily available front-facing video to infer attention levels based on movements of the eyes, head, and face. We train a deep learning model to predict a measure of attention based on overt eye movements. Specifically, we measure Inter-Subject Correlation of eye movements in ten-second intervals while students watch the same educational videos. In 3 different experiments (N=83) we show that the trained model predicts this objective metric of attention on unseen data with $R^2$=0.38, and on unseen subjects with $R^2$=0.26-0.30. The deep network relies mostly on a student's eye movements, but to some extent also on movements of the brows, cheeks, and head. In contrast to Inter-Subject Correlation of the eyes, the model can estimate attentional engagement from individual students' movements without needing reference data from an attentive group. This enables a much broader set of online applications. The solution is lightweight and can operate on the client side, which mitigates some of the privacy concerns associated with online attention monitoring. GitHub implementation is available at https://github.com/asortubay/timeISC
- Abstract(参考訳): 学生は授業中、しばしば集中して漂流する。
効果的な教師はこれを認識し、必要に応じて再入学する。
遠隔学習への移行に伴い、教師は様々な学生のエンゲージメントに適応するために必要な視覚的フィードバックを失っている。
本稿では,目,頭,顔の動きに基づいて注目度を推定するために,手軽に利用できる前面映像を提案する。
我々は,眼球運動に基づく注意度を推定するために,深層学習モデルを訓練する。
具体的には、学生が同じ教育ビデオを見ている間、10秒間隔で眼球運動の物体間相関を測定する。
3つの異なる実験 (N=83) において、トレーニングされたモデルは、$R^2$=0.38、$R^2$=0.26-0.30の未確認データに対して、この客観的な計測値を予測する。
深いネットワークは、主に学生の目の動きに依存するが、ある程度は額、頬、頭の動きにも依存する。
対象間の視線相関とは対照的に,各学生の動きからの注意関係を,注意グループからの参照データを必要とせずに推定することができる。
これにより、より広範なオンラインアプリケーションが可能になる。
ソリューションは軽量で、クライアント側で操作できるため、オンラインの注意監視に関連するプライバシー上の懸念が軽減される。
GitHubの実装はhttps://github.com/asortubay/timeISCで公開されている。
関連論文リスト
- Modeling User Preferences via Brain-Computer Interfacing [54.3727087164445]
我々はBrain-Computer Interface技術を用いてユーザの好みを推測し、その注意力は視覚的コンテンツと感情的体験との関連性に相関する。
我々はこれらを,情報検索,生成モデルのパーソナライズされたステアリング,感情経験のクラウドソーシング人口推定など,関連するアプリケーションにリンクする。
論文 参考訳(メタデータ) (2024-05-15T20:41:46Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - Brief Introduction to Contrastive Learning Pretext Tasks for Visual
Representation [0.0]
教師なし学習手法のサブセットであるコントラスト学習を導入する。
対照的な学習の目的は、互いに近くにある同じサンプルから強化されたサンプルを埋め込んで、そうでないサンプルを押し下げることである。
我々は、最近公開されたコントラスト学習の戦略をいくつか提示し、視覚表現のためのプレテキストタスクに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-06T18:54:10Z) - Learning Video-independent Eye Contact Segmentation from In-the-Wild
Videos [18.373736201140026]
本研究では,野生の映像における片方向眼球接触検出の課題に対処する。
私たちのゴールは、任意の入力ビデオの中で、人が視線ターゲットを見ていることを識別できる統一モデルを構築することです。
ラベル付きトレーニングデータの不足により、ラベルなしビデオの擬似ラベルを生成するための視線目標探索法を提案する。
論文 参考訳(メタデータ) (2022-10-05T05:46:40Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。