論文の概要: Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy
- arxiv url: http://arxiv.org/abs/2405.16496v1
- Date: Sun, 26 May 2024 09:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:58:51.615627
- Title: Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy
- Title(参考訳): 顔面麻痺検出のためのマルチモーダルフュージョンに基づく深層学習ネットワークの探索
- Authors: Nicole Heng Yim Oo, Min Hun Lee, Jeong Hoon Lim,
- Abstract要約: 本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。
我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
- 参考スコア(独自算出の注目度): 3.2381492754749632
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Algorithmic detection of facial palsy offers the potential to improve current practices, which usually involve labor-intensive and subjective assessment by clinicians. In this paper, we present a multimodal fusion-based deep learning model that utilizes unstructured data (i.e. an image frame with facial line segments) and structured data (i.e. features of facial expressions) to detect facial palsy. We then contribute to a study to analyze the effect of different data modalities and the benefits of a multimodal fusion-based approach using videos of 21 facial palsy patients. Our experimental results show that among various data modalities (i.e. unstructured data - RGB images and images of facial line segments and structured data - coordinates of facial landmarks and features of facial expressions), the feed-forward neural network using features of facial expression achieved the highest precision of 76.22 while the ResNet-based model using images of facial line segments achieved the highest recall of 83.47. When we leveraged both images of facial line segments and features of facial expressions, our multimodal fusion-based deep learning model slightly improved the precision score to 77.05 at the expense of a decrease in the recall score.
- Abstract(参考訳): 顔の麻痺のアルゴリズムによる検出は、通常、臨床医による労働集約的、主観的評価を含む現在の実践を改善する可能性がある。
本稿では,非構造化データ(顔線セグメントを持つ画像フレーム)と構造化データ(表情の特徴)を用いて顔の麻痺を検知する多モード融合型ディープラーニングモデルを提案する。
次に、21人の顔面麻痺患者のビデオを用いて、異なるデータモダリティの効果とマルチモーダルフュージョンベースのアプローチの利点を分析する研究に貢献する。
実験結果から,表情特徴を用いたフィードフォワードニューラルネットワークが76.22,ResNetベースモデルが83.47,リコール率が83.47であった。
顔線セグメントの画像と表情の特徴を両面から利用したとき, マルチモーダル融合に基づく深層学習モデルでは, リコールスコアの減少を犠牲にして, 精度を77.05に改善した。
関連論文リスト
- CFCPalsy: Facial Image Synthesis with Cross-Fusion Cycle Diffusion Model for Facial Paralysis Individuals [3.2688425993442696]
本研究の目的は、このギャップに対処するために、高品質な顔面麻痺データセットを合成することである。
拡散モデルに基づく新しいクロスフュージョンサイクルPalsy式生成モデル(PalsyCFC)を提案する。
顔面麻痺の一般的な臨床データセットについて, 定性的, 定量的に検討した。
論文 参考訳(メタデータ) (2024-09-11T13:46:35Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Hybrid Facial Expression Recognition (FER2013) Model for Real-Time
Emotion Classification and Prediction [0.0]
本稿では,Deep Convolutional Neural Network(DCNN)とHaar Cascadeディープラーニングアーキテクチャを組み合わせた,表情認識のためのハイブリッドモデルを提案する。
目的は、リアルタイムおよびデジタル顔画像から、考慮された7つの顔感情カテゴリの1つに分類することである。
実験結果から, 最先端実験や研究と比較して, 分類性能は有意に向上した。
論文 参考訳(メタデータ) (2022-06-19T23:43:41Z) - Research on facial expression recognition based on Multimodal data
fusion and neural network [2.5431493111705943]
このアルゴリズムはマルチモーダルデータに基づいており、顔画像、画像の方向勾配のヒストグラム、顔のランドマークを入力とする。
実験結果から, マルチモーダルデータの相補性により, 精度, 堅牢性, 検出速度が大幅に向上したことがわかった。
論文 参考訳(メタデータ) (2021-09-26T23:45:40Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Ear2Face: Deep Biometric Modality Mapping [9.560980936110234]
生体情報間のマッピングを学習するエンド・ツー・エンドのディープニューラルネットワークモデルを提案する。
この問題を画像と画像のペア変換タスクとして定式化し、耳と顔のペアのデータセットを収集した。
我々は、特にFERETデータセットにおいて、耳画像入力から視覚的に魅力的な顔画像を生成する、非常に有望な結果を得た。
論文 参考訳(メタデータ) (2020-06-02T21:14:27Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。