論文の概要: CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
- arxiv url: http://arxiv.org/abs/2508.03764v1
- Date: Mon, 04 Aug 2025 23:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.377946
- Title: CoughViT: A Self-Supervised Vision Transformer for Cough Audio Representation Learning
- Title(参考訳): CoughViT:Cough Audio Representation Learningのための自己監督型視覚変換器
- Authors: Justin Luong, Hao Xue, Flora D. Salim,
- Abstract要約: CoughViTは汎用コークスの表現を学習するための新しい事前学習フレームワークである。
我々は、自己教師付き学習方式で特徴エンコーダを訓練するために、マスク付きデータモデリングを用いる。
実験の結果,我々の表現は最先端の教師付き音声表現と一致しているか,あるいは超えていることがわかった。
- 参考スコア(独自算出の注目度): 8.789624590579903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physicians routinely assess respiratory sounds during the diagnostic process, providing insight into the condition of a patient's airways. In recent years, AI-based diagnostic systems operating on respiratory sounds, have demonstrated success in respiratory disease detection. These systems represent a crucial advancement in early and accessible diagnosis which is essential for timely treatment. However, label and data scarcity remain key challenges, especially for conditions beyond COVID-19, limiting diagnostic performance and reliable evaluation. In this paper, we propose CoughViT, a novel pre-training framework for learning general-purpose cough sound representations, to enhance diagnostic performance in tasks with limited data. To address label scarcity, we employ masked data modelling to train a feature encoder in a self-supervised learning manner. We evaluate our approach against other pre-training strategies on three diagnostically important cough classification tasks. Experimental results show that our representations match or exceed current state-of-the-art supervised audio representations in enhancing performance on downstream tasks.
- Abstract(参考訳): 医師は診断中の呼吸音を定期的に評価し、患者の気道の状態を知る。
近年, 呼吸音を用いたAIベースの診断システムは, 呼吸器疾患の検出に成功している。
これらのシステムは、早期かつアクセス可能な診断において重要な進歩であり、タイムリーな治療に欠かせないものである。
しかし、特に新型コロナウイルス以外の状況では、ラベルとデータの不足が重要な課題であり、診断性能と信頼性の評価が制限されている。
本稿では,データ制限のあるタスクにおける診断性能を向上させるために,汎用音表現を学習するための新しい事前学習フレームワークであるCoughViTを提案する。
ラベルの不足に対処するために,自己教師付き学習方式で特徴エンコーダを訓練するためにマスク付きデータモデリングを用いる。
診断上重要な3つのコークス分類タスクにおける事前学習戦略に対するアプローチを評価した。
実験の結果,我々の表現は,下流タスクの性能向上のために,現在最先端の教師付き音声表現と一致しているか,あるいは超えていることがわかった。
関連論文リスト
- GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - The Efficacy of Semantics-Preserving Transformations in Self-Supervised Learning for Medical Ultrasound [60.80780313225093]
本研究は, 肺超音波の自己教師あり学習におけるデータ拡張と前処理方略の影響を系統的に検討した。
画像領域に共通して使用されるベースラインパイプライン、超音波用に設計された新しいセマンティック保存パイプライン、両方のパイプラインから最も効果的な変換の蒸留セットの3つのデータ拡張パイプラインが評価された。
論文 参考訳(メタデータ) (2025-04-10T16:26:47Z) - Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。
外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。
本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文 参考訳(メタデータ) (2024-12-01T10:35:12Z) - Towards reliable respiratory disease diagnosis based on cough sounds and vision transformers [14.144599890583308]
本稿では,大規模コークスデータセットを用いた自己教師型学習と教師型学習を併用したコークス病分類手法を提案する。
提案手法は、新型コロナウイルスの診断のための2つのベンチマークデータセットと、AUROC 92.5% の COPD/non-COPD 分類のためのプロプライエタリデータセットにおいて、先行技術よりも一貫して優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-08-28T09:40:40Z) - Automatic Detection of COVID-19 from Chest X-ray Images Using Deep Learning Model [3.8329708057847305]
コロナウイルス(2019-nCoV)は昨年から広く普及しており、世界中に波及している。
テストキットが限られているため、従来の手法で重篤な呼吸障害のある患者を検査するのも大変な作業である。
本稿では,ディープラーニングを用いた診断システムの有効性を示すモデルを提案する。
論文 参考訳(メタデータ) (2024-08-27T10:01:58Z) - Real-Time Magnetic Tracking and Diagnosis of COVID-19 via Machine
Learning [2.737411991771932]
新型コロナウイルス(COVID-19)のパンデミックは、安定した公衆衛生介入のための信頼性の高い非侵襲的な診断ツールの重要性を浮き彫りにした。
本研究では、MRSTと機械学習(ML)を融合させて、新型コロナウイルスやその他の呼吸器疾患のリアルタイム追跡と診断のための診断プラットフォームを構築した。
論文 参考訳(メタデータ) (2023-11-01T13:57:33Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - COVID-19 Detection System: A Comparative Analysis of System Performance Based on Acoustic Features of Cough Audio Signals [0.6963971634605796]
本研究は、新型コロナウイルス検出における機械学習(ML)モデルの性能向上を図ることを目的としている。
MFCC(Mel Frequency Cepstral Coefficients)、クロマ(Chroma)、スペクトルコントラスト(Spectral Contrast)の3つの特徴抽出手法の有効性について検討し、2つの機械学習アルゴリズム、SVM(Support Vector Machine)とMLP(Multilayer Perceptron)に適用した。
提案システムでは,COUGHVIDデータセットでは0.843,Virufyでは0.953,最先端の分類性能を示す。
論文 参考訳(メタデータ) (2023-09-08T08:33:24Z) - A Survey of the Impact of Self-Supervised Pretraining for Diagnostic
Tasks with Radiological Images [71.26717896083433]
自己教師付き事前学習は,伝達学習における特徴表現の改善に有効であることが観察されている。
本総説ではX線, CT, 磁気共鳴, 超音波画像における使用法について概説する。
論文 参考訳(メタデータ) (2023-09-05T19:45:09Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19
Assessment in Primary Care [45.43645878061283]
本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。
私たちの知識グラフには、既存の患者の症状、その持続時間、重症度に関する情報が含まれています。
本フレームワークを英国における新型コロナウイルス患者の相談ノートに適用する。
論文 参考訳(メタデータ) (2023-06-17T23:35:51Z) - A Machine Learning Approach for Delineating Similar Sound Symptoms of
Respiratory Conditions on a Smartphone [0.0]
我々は、現代のスマートフォンの計算能力と記憶能力の改善を活用し、機械学習アルゴリズムを用いて呼吸音の症状を識別する。
携帯電話上でのこれらのアルゴリズムの性能は、スマートフォンがリアルタイムシナリオにおける呼吸症状の認識と識別のための代替ツールであることを示している。
論文 参考訳(メタデータ) (2021-10-15T07:24:30Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。