論文の概要: MATT: Multimodal Attention Level Estimation for e-learning Platforms
- arxiv url: http://arxiv.org/abs/2301.09174v1
- Date: Sun, 22 Jan 2023 18:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:36:41.383596
- Title: MATT: Multimodal Attention Level Estimation for e-learning Platforms
- Title(参考訳): MATT:eラーニングプラットフォームにおけるマルチモーダルアテンションレベル推定
- Authors: Roberto Daza, Luis F. Gomez, Aythami Morales, Julian Fierrez, Ruben
Tolosana, Ruth Cobos, Javier Ortega-Garcia
- Abstract要約: 本研究は,マルチモーダル顔分析に基づくリモートアテンションレベル推定のための新しいマルチモーダルシステムを提案する。
私たちのマルチモーダルアプローチでは、認知負荷のモデル化に関連する行動や生理的プロセスから得られる様々なパラメータと信号を使用します。
mEBALデータベースは、eラーニング環境で得られたアテンションレベル推定のための公共マルチモーダルデータベースである実験フレームワークで使用される。
- 参考スコア(独自算出の注目度): 16.407885871027887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a new multimodal system for remote attention level
estimation based on multimodal face analysis. Our multimodal approach uses
different parameters and signals obtained from the behavior and physiological
processes that have been related to modeling cognitive load such as faces
gestures (e.g., blink rate, facial actions units) and user actions (e.g., head
pose, distance to the camera). The multimodal system uses the following modules
based on Convolutional Neural Networks (CNNs): Eye blink detection, head pose
estimation, facial landmark detection, and facial expression features. First,
we individually evaluate the proposed modules in the task of estimating the
student's attention level captured during online e-learning sessions. For that
we trained binary classifiers (high or low attention) based on Support Vector
Machines (SVM) for each module. Secondly, we find out to what extent multimodal
score level fusion improves the attention level estimation. The mEBAL database
is used in the experimental framework, a public multi-modal database for
attention level estimation obtained in an e-learning environment that contains
data from 38 users while conducting several e-learning tasks of variable
difficulty (creating changes in student cognitive loads).
- Abstract(参考訳): 本研究は,マルチモーダル顔分析に基づくリモートアテンションレベル推定のための新しいマルチモーダルシステムを提案する。
我々のマルチモーダルアプローチは、顔のジェスチャー(例えば、瞬き率、顔の動き単位)やユーザー行動(例えば、頭部ポーズ、カメラの距離)といった認知的負荷のモデル化に関連する行動や生理的プロセスから得られる様々なパラメータと信号を使用する。
マルチモーダルシステムは、畳み込みニューラルネットワーク(CNN)に基づく以下のモジュールを使用する。
まず,オンラインeラーニングセッションにおける学生の注意度を推定する作業において,提案したモジュールを個別に評価する。
そのため、各モジュールのサポートベクトルマシン(SVM)に基づいてバイナリ分類器(高いか低いか)を訓練しました。
次に,マルチモーダルスコアレベル融合が注目度推定をどの程度改善するかを明らかにする。
mEBALデータベースは、変動困難(生徒の認知負荷の変化)の複数のeラーニングタスクを実行しながら、38人のユーザのデータを含むeラーニング環境で得られた注目レベル推定のためのパブリックマルチモーダルデータベースである。
関連論文リスト
- SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Multimodal Few-Shot Object Detection with Meta-Learning Based
Cross-Modal Prompting [77.69172089359606]
マルチモーダルな少数ショットオブジェクト検出法について,少数ショット視覚例とクラス意味情報の両方を用いて検討した。
我々のモデルは、トークンレベルと特徴レベルの両方で視覚情報と意味情報を効率的に融合させることができる。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - HighMMT: Towards Modality and Task Generalization for High-Modality
Representation Learning [121.81678875923524]
マルチタスクと移動学習が可能な汎用マルチモーダルモデルを設計する。
得られたモデルは、テキスト、画像、ビデオ、オーディオ、時系列、センサー、テーブルにまたがって一般化され、異なる研究領域から設定される。
コードとベンチマークを公開し、その後の理論的および経験的分析のための統一されたプラットフォームを提供したいと思っています。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Attentive Cross-modal Connections for Deep Multimodal Wearable-based
Emotion Recognition [7.559720049837459]
本稿では、畳み込みニューラルネットワーク間で情報を共有するための、新しい注意深いクロスモーダル接続を提案する。
具体的には、EDAとECGの中間表現を共有することにより、感情分類を改善する。
実験の結果,提案手法は強いマルチモーダル表現を学習し,多くのベースライン法より優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-04T18:40:32Z) - Training Multimodal Systems for Classification with Multiple Objectives [6.888664946634335]
複数のモダリティから学ぶためにアーキテクチャを適用することは、世界の豊かな表現を学ぶ可能性を生み出す。
現在のマルチモーダルシステムは、ユニモーダルアプローチの限界的な改善しか提供していない。
本研究は,変分推論を用いて学習したマルチモーダル融合プロセスに対する第2の目的を紹介する。
論文 参考訳(メタデータ) (2020-08-26T09:05:40Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。