論文の概要: Tuning In: Analysis of Audio Classifier Performance in Clinical Settings
with Limited Data
- arxiv url: http://arxiv.org/abs/2402.10100v2
- Date: Mon, 19 Feb 2024 11:52:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:27:53.154026
- Title: Tuning In: Analysis of Audio Classifier Performance in Clinical Settings
with Limited Data
- Title(参考訳): チューニングイン:限られたデータを用いた臨床施設における音声分類器の性能分析
- Authors: Hamza Mahdi, Eptehal Nashnoush, Rami Saab, Arjun Balachandar, Rishit
Dagli, Lucas X. Perri, and Houman Khosravani
- Abstract要約: 本研究では,小データセットの制約を考慮した臨床環境下での音声分類のためのディープラーニングモデルの評価を行う。
我々は、DenseNetやConvNeXtを含むCNNを、ViT、SWIN、ASTといったトランスフォーマーモデルとともに分析する。
本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングを行うことの利点を強調した。
- 参考スコア(独自算出の注目度): 3.0113849517062303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study assesses deep learning models for audio classification in a
clinical setting with the constraint of small datasets reflecting real-world
prospective data collection. We analyze CNNs, including DenseNet and ConvNeXt,
alongside transformer models like ViT, SWIN, and AST, and compare them against
pre-trained audio models such as YAMNet and VGGish. Our method highlights the
benefits of pre-training on large datasets before fine-tuning on specific
clinical data. We prospectively collected two first-of-their-kind patient audio
datasets from stroke patients. We investigated various preprocessing
techniques, finding that RGB and grayscale spectrogram transformations affect
model performance differently based on the priors they learn from pre-training.
Our findings indicate CNNs can match or exceed transformer models in small
dataset contexts, with DenseNet-Contrastive and AST models showing notable
performance. This study highlights the significance of incremental marginal
gains through model selection, pre-training, and preprocessing in sound
classification; this offers valuable insights for clinical diagnostics that
rely on audio classification.
- Abstract(参考訳): 本研究は,実世界の予測データ収集を反映した小型データセットを制約した臨床環境での音声分類のための深層学習モデルを評価する。
我々は、DenseNetやConvNeXtなどのCNNを、VT、SWIN、ASTといったトランスフォーマーモデルとともに分析し、YAMNetやVGGishといった事前訓練されたオーディオモデルと比較する。
本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングする利点を強調する。
脳卒中患者の音声データセットを2つ前向きに収集した。
各種前処理技術について検討し,RGBおよびグレースケールのスペクトログラム変換が事前学習から学習した事前学習に基づいて,モデル性能に異なる影響を及ぼすことを示した。
以上の結果から,cnnは小さなデータセットの文脈でトランスフォーマモデルにマッチする,あるいは超越する可能性が示唆された。
本研究は、音響分類におけるモデル選択、事前学習、前処理による段階的限界利得の重要性を強調し、オーディオ分類に依存する臨床診断に有用な知見を提供する。
関連論文リスト
- BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification [0.0]
音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。
提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
論文 参考訳(メタデータ) (2024-06-10T20:49:54Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Improved Techniques for the Conditional Generative Augmentation of
Clinical Audio Data [36.45569352490318]
本稿では,学習したデータ分布からメルスペクトルを合成できる条件付き逆方向ニューラルネットワークによる拡張法を提案する。
提案手法は,従来の音質向上手法よりも優れていることを示す。
提案モデルは,臨床オーディオデータの増大における最先端の進歩と,臨床音響センシングシステムの設計におけるデータのボトルネックを改善する。
論文 参考訳(メタデータ) (2022-11-05T10:58:04Z) - Side-aware Meta-Learning for Cross-Dataset Listener Diagnosis with
Subjective Tinnitus [38.66127142638335]
本稿では,クロスデータセット・ティンニタス診断のための側面認識メタラーニングを提案する。
本手法は,クロスデータセット分類において73.8%の精度を実現する。
論文 参考訳(メタデータ) (2022-05-03T03:17:44Z) - Conditional Generative Data Augmentation for Clinical Audio Datasets [36.45569352490318]
本稿では,重み付き条件付きWasserstein Generative Adversarial Networkに基づく臨床オーディオデータセットのための新しいデータ拡張手法を提案する。
本手法を検証するため,THA(Total Hipplasty)手術中に実世界の手術室で記録された臨床オーディオデータセットを作成した。
生成した強化サンプルによるトレーニングは、分類精度の点で古典的な音声強調法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-22T09:47:31Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Robustly Pre-trained Neural Model for Direct Temporal Relation
Extraction [10.832917897850361]
BERT (Bidirectional Representation using Transformer) のいくつかの変種について検討した。
2012 i2b2 時間関係課題データセットのセマンティックな部分集合である直接時間関係データセットを用いて,これらの手法の評価を行った。
結果: 10倍のコーパスを含む事前学習戦略を取り入れたRoBERTaは,F値の絶対スコア(1.00スケール)を0.0864改善し,SVMモデルで達成した従来の最先端性能と比較して誤差率を24%低減した。
論文 参考訳(メタデータ) (2020-04-13T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。