論文の概要: MATT: Multimodal Attention Level Estimation for e-learning Platforms
- arxiv url: http://arxiv.org/abs/2301.09174v1
- Date: Sun, 22 Jan 2023 18:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:36:41.383596
- Title: MATT: Multimodal Attention Level Estimation for e-learning Platforms
- Title(参考訳): MATT:eラーニングプラットフォームにおけるマルチモーダルアテンションレベル推定
- Authors: Roberto Daza, Luis F. Gomez, Aythami Morales, Julian Fierrez, Ruben
Tolosana, Ruth Cobos, Javier Ortega-Garcia
- Abstract要約: 本研究は,マルチモーダル顔分析に基づくリモートアテンションレベル推定のための新しいマルチモーダルシステムを提案する。
私たちのマルチモーダルアプローチでは、認知負荷のモデル化に関連する行動や生理的プロセスから得られる様々なパラメータと信号を使用します。
mEBALデータベースは、eラーニング環境で得られたアテンションレベル推定のための公共マルチモーダルデータベースである実験フレームワークで使用される。
- 参考スコア(独自算出の注目度): 16.407885871027887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a new multimodal system for remote attention level
estimation based on multimodal face analysis. Our multimodal approach uses
different parameters and signals obtained from the behavior and physiological
processes that have been related to modeling cognitive load such as faces
gestures (e.g., blink rate, facial actions units) and user actions (e.g., head
pose, distance to the camera). The multimodal system uses the following modules
based on Convolutional Neural Networks (CNNs): Eye blink detection, head pose
estimation, facial landmark detection, and facial expression features. First,
we individually evaluate the proposed modules in the task of estimating the
student's attention level captured during online e-learning sessions. For that
we trained binary classifiers (high or low attention) based on Support Vector
Machines (SVM) for each module. Secondly, we find out to what extent multimodal
score level fusion improves the attention level estimation. The mEBAL database
is used in the experimental framework, a public multi-modal database for
attention level estimation obtained in an e-learning environment that contains
data from 38 users while conducting several e-learning tasks of variable
difficulty (creating changes in student cognitive loads).
- Abstract(参考訳): 本研究は,マルチモーダル顔分析に基づくリモートアテンションレベル推定のための新しいマルチモーダルシステムを提案する。
我々のマルチモーダルアプローチは、顔のジェスチャー(例えば、瞬き率、顔の動き単位)やユーザー行動(例えば、頭部ポーズ、カメラの距離)といった認知的負荷のモデル化に関連する行動や生理的プロセスから得られる様々なパラメータと信号を使用する。
マルチモーダルシステムは、畳み込みニューラルネットワーク(CNN)に基づく以下のモジュールを使用する。
まず,オンラインeラーニングセッションにおける学生の注意度を推定する作業において,提案したモジュールを個別に評価する。
そのため、各モジュールのサポートベクトルマシン(SVM)に基づいてバイナリ分類器(高いか低いか)を訓練しました。
次に,マルチモーダルスコアレベル融合が注目度推定をどの程度改善するかを明らかにする。
mEBALデータベースは、変動困難(生徒の認知負荷の変化)の複数のeラーニングタスクを実行しながら、38人のユーザのデータを含むeラーニング環境で得られた注目レベル推定のためのパブリックマルチモーダルデータベースである。
関連論文リスト
- Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Training Multimodal Systems for Classification with Multiple Objectives [6.888664946634335]
複数のモダリティから学ぶためにアーキテクチャを適用することは、世界の豊かな表現を学ぶ可能性を生み出す。
現在のマルチモーダルシステムは、ユニモーダルアプローチの限界的な改善しか提供していない。
本研究は,変分推論を用いて学習したマルチモーダル融合プロセスに対する第2の目的を紹介する。
論文 参考訳(メタデータ) (2020-08-26T09:05:40Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - A System for Real-Time Interactive Analysis of Deep Learning Training [66.06880335222529]
現在利用可能なシステムは、トレーニングプロセスが始まる前に指定しなければならないログデータのみを監視することに限定されている。
本稿では,リアルタイム情報を生成するライブプロセス上で対話型クエリを実行可能にするシステムを提案する。
論文 参考訳(メタデータ) (2020-01-05T11:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。