論文の概要: An Attentive Dual-Encoder Framework Leveraging Multimodal Visual and Semantic Information for Automatic OSAHS Diagnosis
- arxiv url: http://arxiv.org/abs/2412.18919v1
- Date: Wed, 25 Dec 2024 14:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:23.929474
- Title: An Attentive Dual-Encoder Framework Leveraging Multimodal Visual and Semantic Information for Automatic OSAHS Diagnosis
- Title(参考訳): マルチモーダル・ビジュアル・セマンティック情報を利用したOSAHS自動診断のための注意型デュアルエンコーダフレームワーク
- Authors: Yingchen Wei, Xihe Qiu, Xiaoyu Tan, Jingjing Huang, Wei Chu, Yinghui Xu, Yuan Qi,
- Abstract要約: 閉塞型睡眠時無呼吸症候群(英語:obstructive sleep apnea-hypopnea syndrome、OSAHS)は、上気道閉塞による一般的な睡眠障害であり、酸素欠乏と睡眠障害を引き起こす。
顔画像解析を用いた既存のディープラーニング手法では、顔の特徴キャプチャが劣り、サンプルサイズが制限されていたため、精度が低かった。
自動OSAHS診断のための視覚入力と言語入力を統合したマルチモーダルデュアルエンコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 26.69518726864821
- License:
- Abstract: Obstructive sleep apnea-hypopnea syndrome (OSAHS) is a common sleep disorder caused by upper airway blockage, leading to oxygen deprivation and disrupted sleep. Traditional diagnosis using polysomnography (PSG) is expensive, time-consuming, and uncomfortable. Existing deep learning methods using facial image analysis lack accuracy due to poor facial feature capture and limited sample sizes. To address this, we propose a multimodal dual encoder model that integrates visual and language inputs for automated OSAHS diagnosis. The model balances data using randomOverSampler, extracts key facial features with attention grids, and converts physiological data into meaningful text. Cross-attention combines image and text data for better feature extraction, and ordered regression loss ensures stable learning. Our approach improves diagnostic efficiency and accuracy, achieving 91.3% top-1 accuracy in a four-class severity classification task, demonstrating state-of-the-art performance. Code will be released upon acceptance.
- Abstract(参考訳): 閉塞型睡眠時無呼吸症候群(英語:obstructive sleep apnea-hypopnea syndrome、OSAHS)は、上気道閉塞による一般的な睡眠障害であり、酸素欠乏と睡眠障害を引き起こす。
従来のPSG(polysomnography)による診断は高価で、時間もかかり、不快である。
顔画像解析を用いた既存のディープラーニング手法では、顔の特徴キャプチャが劣り、サンプルサイズが制限されていたため、精度が低かった。
そこで本研究では,OSAHSの自動診断のための視覚入力と言語入力を統合したマルチモーダルデュアルエンコーダモデルを提案する。
このモデルはランダムOverSamplerを使ってデータのバランスをとり、注意格子で重要な顔の特徴を抽出し、生理データを意味のあるテキストに変換する。
クロスアテンションは、画像とテキストデータを組み合わせて、より優れた特徴抽出を行い、順序付き回帰損失は安定した学習を保証する。
本手法は診断効率と精度を向上し,4段階の重度分類タスクにおいて91.3%のTop-1精度を実現し,最先端性能を示す。
コードは受理時にリリースされる。
関連論文リスト
- CONSULT: Contrastive Self-Supervised Learning for Few-shot Tumor Detection [21.809270017579806]
CONSULT(Contrastive Self-SUpervised Learning for few-shot tumor detection)と呼ばれる新しい2段階異常検出アルゴリズムを提案する。
CONSULTは、MRI脳画像に特化して訓練済みの機能抽出器を微調整し、合成データ生成パイプラインを使用して腫瘍のようなデータを生成する。
第1段階は、文脈対応コントラスト学習と自己監督型特徴逆学習を取り入れた高変量データの特徴抽出において、現在の異常検出の欠点を克服することである。
論文 参考訳(メタデータ) (2024-10-15T06:09:28Z) - Leveraging Latent Diffusion Models for Training-Free In-Distribution Data Augmentation for Surface Defect Detection [9.784793380119806]
データ拡張のためのトレーニング不要な拡散型In-Distribution Anomaly GenerationパイプラインであるDIAGを紹介する。
従来の画像生成技術とは異なり、我々は、ドメインの専門家がモデルにマルチモーダルガイダンスを提供する、Human-in-the-loopパイプラインを実装している。
我々は、挑戦的なKSDD2データセットに対する最先端データ拡張アプローチに関して、DIAGの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-04T14:28:52Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - AIOSA: An approach to the automatic identification of obstructive sleep
apnea events based on deep learning [1.5381930379183162]
OSASは、死亡率の上昇、神経障害の悪化、リハビリテーション後の機能低下、高血圧の発症率の上昇と関連している。
OSAS診断のための金標準検査はPSG (Polysomnography) である。
生波形データの時間分解能を低減できる畳み込み型ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-10T11:21:47Z) - Improving Deep Facial Phenotyping for Ultra-rare Disorder Verification
Using Model Ensembles [52.77024349608834]
我々は、DCNNを最先端の顔認識手法であるiResNetとArcFaceに置き換える影響を分析する。
提案するアンサンブルモデルにより,目視と目視の両障害に対する最先端のパフォーマンスが達成される。
論文 参考訳(メタデータ) (2022-11-12T23:28:54Z) - Margin-Aware Intra-Class Novelty Identification for Medical Images [2.647674705784439]
ノベルティ検出のためのハイブリッドモデル-変換に基づく埋め込み学習(TEND)を提案する。
事前訓練されたオートエンコーダを画像特徴抽出器として、TENDは変換されたオートエンコーダから分布内データの特徴埋め込みを偽のアウト・オブ・ディストリビューション入力として識別する。
論文 参考訳(メタデータ) (2021-07-31T00:10:26Z) - Convolutional Neural Networks for Sleep Stage Scoring on a Two-Channel
EEG Signal [63.18666008322476]
睡眠障害は、世界中の主要な病気の1つです。
専門家が使用する基本的なツールはPolysomnogramで、睡眠中に記録された様々な信号の集合である。
専門家は、標準的なガイドラインの1つに従って異なる信号を採点する必要があります。
論文 参考訳(メタデータ) (2021-03-30T09:59:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Improved Slice-wise Tumour Detection in Brain MRIs by Computing
Dissimilarities between Latent Representations [68.8204255655161]
磁気共鳴画像(MRI)の異常検出は教師なし手法で行うことができる。
本研究では,変分オートエンコーダの潜伏空間における相似関数の計算に基づいて,腫瘍検出のためのスライスワイズ半教師法を提案する。
本研究では,高解像度画像上でのモデルをトレーニングし,再現の質を向上させることにより,異なるベースラインに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-24T14:02:09Z) - Automate Obstructive Sleep Apnea Diagnosis Using Convolutional Neural
Networks [4.882119124419393]
本稿では,1次元畳み込み層とFCN層を有するCNNアーキテクチャについて述べる。
提案した1次元CNNモデルはPSG信号を手動で前処理することなく優れた分類結果が得られる。
論文 参考訳(メタデータ) (2020-06-13T15:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。