Fugu-MT 論文翻訳(概要): Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data

論文の概要: Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data

arxiv url: http://arxiv.org/abs/2402.10100v2
Date: Mon, 19 Feb 2024 11:52:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 00:27:53.154026
Title: Tuning In: Analysis of Audio Classifier Performance in Clinical Settings with Limited Data
Title（参考訳）: チューニングイン:限られたデータを用いた臨床施設における音声分類器の性能分析
Authors: Hamza Mahdi, Eptehal Nashnoush, Rami Saab, Arjun Balachandar, Rishit Dagli, Lucas X. Perri, and Houman Khosravani
Abstract要約: 本研究では,小データセットの制約を考慮した臨床環境下での音声分類のためのディープラーニングモデルの評価を行う。我々は、DenseNetやConvNeXtを含むCNNを、ViT、SWIN、ASTといったトランスフォーマーモデルとともに分析する。本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングを行うことの利点を強調した。
参考スコア（独自算出の注目度）: 3.0113849517062303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study assesses deep learning models for audio classification in a clinical setting with the constraint of small datasets reflecting real-world prospective data collection. We analyze CNNs, including DenseNet and ConvNeXt, alongside transformer models like ViT, SWIN, and AST, and compare them against pre-trained audio models such as YAMNet and VGGish. Our method highlights the benefits of pre-training on large datasets before fine-tuning on specific clinical data. We prospectively collected two first-of-their-kind patient audio datasets from stroke patients. We investigated various preprocessing techniques, finding that RGB and grayscale spectrogram transformations affect model performance differently based on the priors they learn from pre-training. Our findings indicate CNNs can match or exceed transformer models in small dataset contexts, with DenseNet-Contrastive and AST models showing notable performance. This study highlights the significance of incremental marginal gains through model selection, pre-training, and preprocessing in sound classification; this offers valuable insights for clinical diagnostics that rely on audio classification.
Abstract（参考訳）: 本研究は,実世界の予測データ収集を反映した小型データセットを制約した臨床環境での音声分類のための深層学習モデルを評価する。我々は、DenseNetやConvNeXtなどのCNNを、VT、SWIN、ASTといったトランスフォーマーモデルとともに分析し、YAMNetやVGGishといった事前訓練されたオーディオモデルと比較する。本手法は,特定の臨床データを微調整する前に,大規模データセットで事前トレーニングする利点を強調する。脳卒中患者の音声データセットを2つ前向きに収集した。各種前処理技術について検討し,RGBおよびグレースケールのスペクトログラム変換が事前学習から学習した事前学習に基づいて,モデル性能に異なる影響を及ぼすことを示した。以上の結果から,cnnは小さなデータセットの文脈でトランスフォーマモデルにマッチする,あるいは超越する可能性が示唆された。本研究は、音響分類におけるモデル選択、事前学習、前処理による段階的限界利得の重要性を強調し、オーディオ分類に依存する臨床診断に有用な知見を提供する。

関連論文リスト

Quantum Machine Learning for Predicting Anastomotic Leak: A Clinical Study [0.16777183511743468]
AL(Anastomotic leak)は,大腸癌術後の合併症である。本研究では、AL予測のための量子ニューラルネットワーク(QNN)の可能性について検討する。
論文参考訳（メタデータ） (2025-06-02T14:13:10Z)
Benchmarking machine learning for bowel sound pattern classification from tabular features to pretrained models [2.235474969689758]
このデータセットは、ボーエル音のパターンを検出し/または分類するための機械学習モデルの性能を評価するために使用される。結果は、特にサンプルが少ないクラスの検出において、事前訓練されたモデルの明らかな優位性を強調した。これらの結果から,全身的な腸音の理解が向上し,今後の消化器検査への機械学習による診断応用が期待できる。
論文参考訳（メタデータ） (2025-02-21T17:22:48Z)
BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification [0.0]
音声サンプルのメタデータから派生した自由テキスト記述を用いて,事前学習したテキスト・オーディオ・マルチモーダルモデルを微調整する。提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。
論文参考訳（メタデータ） (2024-06-10T20:49:54Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Improved Techniques for the Conditional Generative Augmentation of Clinical Audio Data [36.45569352490318]
本稿では,学習したデータ分布からメルスペクトルを合成できる条件付き逆方向ニューラルネットワークによる拡張法を提案する。提案手法は,従来の音質向上手法よりも優れていることを示す。提案モデルは,臨床オーディオデータの増大における最先端の進歩と,臨床音響センシングシステムの設計におけるデータのボトルネックを改善する。
論文参考訳（メタデータ） (2022-11-05T10:58:04Z)
Side-aware Meta-Learning for Cross-Dataset Listener Diagnosis with Subjective Tinnitus [38.66127142638335]
本稿では,クロスデータセット・ティンニタス診断のための側面認識メタラーニングを提案する。本手法は,クロスデータセット分類において73.8%の精度を実現する。
論文参考訳（メタデータ） (2022-05-03T03:17:44Z)
Conditional Generative Data Augmentation for Clinical Audio Datasets [36.45569352490318]
本稿では,重み付き条件付きWasserstein Generative Adversarial Networkに基づく臨床オーディオデータセットのための新しいデータ拡張手法を提案する。本手法を検証するため,THA(Total Hipplasty)手術中に実世界の手術室で記録された臨床オーディオデータセットを作成した。生成した強化サンプルによるトレーニングは、分類精度の点で古典的な音声強調法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-22T09:47:31Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)
Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文参考訳（メタデータ） (2020-07-15T09:22:55Z)
Robustly Pre-trained Neural Model for Direct Temporal Relation Extraction [10.832917897850361]
BERT (Bidirectional Representation using Transformer) のいくつかの変種について検討した。 2012 i2b2 時間関係課題データセットのセマンティックな部分集合である直接時間関係データセットを用いて,これらの手法の評価を行った。結果: 10倍のコーパスを含む事前学習戦略を取り入れたRoBERTaは,F値の絶対スコア(1.00スケール)を0.0864改善し,SVMモデルで達成した従来の最先端性能と比較して誤差率を24%低減した。
論文参考訳（メタデータ） (2020-04-13T22:01:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。