論文の概要: A Multimodal Fusion Model Leveraging MLP Mixer and Handcrafted Features-based Deep Learning Networks for Facial Palsy Detection
- arxiv url: http://arxiv.org/abs/2503.10371v1
- Date: Thu, 13 Mar 2025 13:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:11.112407
- Title: A Multimodal Fusion Model Leveraging MLP Mixer and Handcrafted Features-based Deep Learning Networks for Facial Palsy Detection
- Title(参考訳): MLPミキサーと手作り特徴を用いた顔面麻痺検出のための深層学習ネットワークを利用したマルチモーダルフュージョンモデル
- Authors: Heng Yim Nicole Oo, Min Hun Lee, Jeong Hoon Lim,
- Abstract要約: 顔の麻痺を検知するための非構造化データを処理するマルチモーダルフュージョンに基づくディープラーニングモデルを提案する。
我々のモデルは96.00 F1を達成したが、これは手作りの特徴だけで訓練されたニューラルネットワークよりもはるかに高い。
- 参考スコア(独自算出の注目度): 3.2381492754749632
- License:
- Abstract: Algorithmic detection of facial palsy offers the potential to improve current practices, which usually involve labor-intensive and subjective assessments by clinicians. In this paper, we present a multimodal fusion-based deep learning model that utilizes an MLP mixer-based model to process unstructured data (i.e. RGB images or images with facial line segments) and a feed-forward neural network to process structured data (i.e. facial landmark coordinates, features of facial expressions, or handcrafted features) for detecting facial palsy. We then contribute to a study to analyze the effect of different data modalities and the benefits of a multimodal fusion-based approach using videos of 20 facial palsy patients and 20 healthy subjects. Our multimodal fusion model achieved 96.00 F1, which is significantly higher than the feed-forward neural network trained on handcrafted features alone (82.80 F1) and an MLP mixer-based model trained on raw RGB images (89.00 F1).
- Abstract(参考訳): 顔の麻痺のアルゴリズムによる検出は、通常、臨床医による労働集約的および主観的評価を含む現在の実践を改善する可能性がある。
本稿では,MLPミキサーモデルを用いて,非構造化データ(RGB画像や顔線セグメントを含む画像)とフィードフォワードニューラルネットワークを用いて,顔の触覚を検出するための構造化データ(顔のランドマーク座標,表情の特徴,手作り特徴など)を処理するマルチモーダル融合型ディープラーニングモデルを提案する。
次に,20名の顔面麻痺患者と20名の健常者のビデオを用いて,異なるデータモダリティの効果とマルチモーダルフュージョンベースのアプローチの利点を分析する研究に貢献する。
我々のマルチモーダル核融合モデルは96.00 F1を達成したが、これは手作りの特徴だけで訓練されたフィードフォワードニューラルネットワーク(82.80 F1)と生RGB画像で訓練されたMLPミキサーベースモデル(89.00 F1)よりもはるかに高い。
関連論文リスト
- CFCPalsy: Facial Image Synthesis with Cross-Fusion Cycle Diffusion Model for Facial Paralysis Individuals [3.2688425993442696]
本研究の目的は、このギャップに対処するために、高品質な顔面麻痺データセットを合成することである。
拡散モデルに基づく新しいクロスフュージョンサイクルPalsy式生成モデル(PalsyCFC)を提案する。
顔面麻痺の一般的な臨床データセットについて, 定性的, 定量的に検討した。
論文 参考訳(メタデータ) (2024-09-11T13:46:35Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - Deep Learning-based Facial Appearance Simulation Driven by Surgically
Planned Craniomaxillofacial Bony Movement [13.663130604042278]
顔の外観を推定するために,注意応答支援運動変換ネットワーク(ACMT-Net)を提案する。
提案手法は, 最先端のFEM手法と比較して, 顔変化予測精度を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-04T15:33:01Z) - Cross-Modality Deep Feature Learning for Brain Tumor Segmentation [158.8192041981564]
本稿では, マルチモーダルMRIデータから脳腫瘍を抽出するクロスモーダルディープ・フィーチャーラーニング・フレームワークを提案する。
中心となる考え方は、不十分なデータスケールを補うために、マルチモダリティデータにまたがる豊富なパターンをマイニングすることだ。
on the BraTS benchmarks, this proposed cross-modality deep feature learning framework could effective improve the brain tumor segmentation performance。
論文 参考訳(メタデータ) (2022-01-07T07:46:01Z) - Research on facial expression recognition based on Multimodal data
fusion and neural network [2.5431493111705943]
このアルゴリズムはマルチモーダルデータに基づいており、顔画像、画像の方向勾配のヒストグラム、顔のランドマークを入力とする。
実験結果から, マルチモーダルデータの相補性により, 精度, 堅牢性, 検出速度が大幅に向上したことがわかった。
論文 参考訳(メタデータ) (2021-09-26T23:45:40Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - The FaceChannel: A Fast & Furious Deep Neural Network for Facial
Expression Recognition [71.24825724518847]
顔の表情の自動認識(FER)の最先端モデルは、非常に深いニューラルネットワークに基づいており、訓練には効果的だがかなり高価である。
私たちは、一般的なディープニューラルネットワークよりもはるかに少ないパラメータを持つ軽量ニューラルネットワークであるFaceChannelを形式化します。
我々は、私たちのモデルがFERの現在の最先端技術に匹敵するパフォーマンスを達成する方法を実証する。
論文 参考訳(メタデータ) (2020-09-15T09:25:37Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。