論文の概要: VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals
- arxiv url: http://arxiv.org/abs/2409.16126v1
- Date: Tue, 24 Sep 2024 14:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:36:51.232082
- Title: VisioPhysioENet: Multimodal Engagement Detection using Visual and Physiological Signals
- Title(参考訳): VisioPhysioENet:視覚信号と生理信号を用いたマルチモーダルエンゲージメント検出
- Authors: Alakhsimar Singh, Nischay Verma, Kanav Goyal, Amritpal Singh, Puneet Kumar, Xiaobai Li,
- Abstract要約: 本稿では、視覚的手がかりと生理的信号を利用してエンゲージメントを検出する新しいシステムであるPhysioENetを紹介する。
DAiSEEデータセットの精度は63.09%である。
- 参考スコア(独自算出の注目度): 12.238387391165071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VisioPhysioENet, a novel multimodal system that leverages visual cues and physiological signals to detect learner engagement. It employs a two-level approach for visual feature extraction using the Dlib library for facial landmark extraction and the OpenCV library for further estimations. This is complemented by extracting physiological signals using the plane-orthogonal-to-skin method to assess cardiovascular activity. These features are integrated using advanced machine learning classifiers, enhancing the detection of various engagement levels. We rigorously evaluate VisioPhysioENet on the DAiSEE dataset, where it achieves an accuracy of 63.09%, demonstrating a superior ability to discern various levels of engagement compared to existing methodologies. The proposed system's code can be accessed at https://github.com/MIntelligence-Group/VisioPhysioENet.
- Abstract(参考訳): 本稿では、視覚的手がかりと生理的信号を利用して学習者のエンゲージメントを検出する新しいマルチモーダルシステムVisioPhysioENetを提案する。
顔のランドマーク抽出にはDlibライブラリと、さらなる推定にはOpenCVライブラリを使用して、視覚的特徴抽出には2段階のアプローチを採用している。
これは、平面直交皮膚法を用いて生理的信号を抽出し、心血管活動を評価することによって補完される。
これらの機能は高度な機械学習分類器を使用して統合され、様々なエンゲージメントレベルの検出が強化される。
DAiSEEデータセット上でVisioPhysioENetを厳格に評価し,63.09%の精度を達成し,既存の手法と比較して,様々なレベルのエンゲージメントを識別できる優れた能力を示した。
提案されたシステムのコードはhttps://github.com/MIntelligence-Group/VisioPhysioENetでアクセスできる。
関連論文リスト
- Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。
最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。
提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文 参考訳(メタデータ) (2024-08-13T10:16:10Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Image complexity based fMRI-BOLD visual network categorization across
visual datasets using topological descriptors and deep-hybrid learning [3.522950356329991]
本研究の目的は,視覚的データセットと異なる視覚刺激に応答して,ネットワークトポロジがどう異なるかを検討することである。
これを実現するために、COCO、ImageNet、SUNを表す視覚ネットワーク毎に0次元および1次元の永続図を演算する。
抽出したK平均クラスター特徴は、これらの視覚ネットワークの分類において90%-95%の範囲で精度の高い新しいディープハイブリッドモデルに供給される。
論文 参考訳(メタデータ) (2023-11-03T14:05:57Z) - Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。
我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。
CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。
そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文 参考訳(メタデータ) (2023-05-17T11:36:40Z) - Retinal Structure Detection in OCTA Image via Voting-based Multi-task
Learning [27.637273690432608]
本稿では,Voting-based Adaptive Feature Fusion multi-task network (VAFF-Net) を提案する。
タスク固有の投票ゲートモジュールは、特定のタスクに対して2段階の異なる特徴を適応的に抽出し、融合するために提案される。
さらなる研究を容易にするため、ソースコードと評価ベンチマークを備えたデータセットの一部がパブリックアクセス用にリリースされた。
論文 参考訳(メタデータ) (2022-08-23T05:53:04Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Dynamic Graph Modeling of Simultaneous EEG and Eye-tracking Data for
Reading Task Identification [79.41619843969347]
我々は、脳波(EEG)と眼球運動(EM)データからヒトの読取意図を特定するための新しいアプローチAdaGTCNを提案する。
本稿では,AdaGTCN(Adaptive Graph Temporal Convolution Network)の手法として,Adaptive Graph Learning LayerとDeep Neighborhood Graph Convolution Layerを用いた。
このアプローチといくつかのベースラインを比較し、ZuCo 2.0データセットの6.29%の改善と広範なアブレーション実験を報告します。
論文 参考訳(メタデータ) (2021-02-21T18:19:49Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Multi-Scale Neural network for EEG Representation Learning in BCI [2.105172041656126]
本稿では,複数の周波数/時間範囲における特徴表現を探索する深層多スケールニューラルネットワークを提案する。
スペクトル時間情報を用いた脳波信号の表現により,提案手法を多種多様なパラダイムに応用することができる。
論文 参考訳(メタデータ) (2020-03-02T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。