論文の概要: Optimizing Audio Augmentations for Contrastive Learning of
Health-Related Acoustic Signals
- arxiv url: http://arxiv.org/abs/2309.05843v1
- Date: Mon, 11 Sep 2023 22:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:00:11.155897
- Title: Optimizing Audio Augmentations for Contrastive Learning of
Health-Related Acoustic Signals
- Title(参考訳): 健康関連音響信号のコントラスト学習のためのオーディオ拡張の最適化
- Authors: Louis Blankemeier, Sebastien Baur, Wei-Hung Weng, Jake Garrison, Yossi
Matias, Shruthi Prabhakara, Diego Ardila, Zaid Nabulsi
- Abstract要約: くさびや呼吸音などの健康関連音響信号は、医学的診断と継続的な健康モニタリングに関係している。
我々は、Slowfast NFNetバックボーンを備えた自己教師型学習フレームワークSimCLRを、健康音響の対照的な学習に活用する。
Slowfast NFNetオーディオエンコーダの性能向上を図るため, 各種オーディオエンコーダの詳細な分析を行い, 適切な拡張戦略を示す。
- 参考スコア(独自算出の注目度): 8.318391689611971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Health-related acoustic signals, such as cough and breathing sounds, are
relevant for medical diagnosis and continuous health monitoring. Most existing
machine learning approaches for health acoustics are trained and evaluated on
specific tasks, limiting their generalizability across various healthcare
applications. In this paper, we leverage a self-supervised learning framework,
SimCLR with a Slowfast NFNet backbone, for contrastive learning of health
acoustics. A crucial aspect of optimizing Slowfast NFNet for this application
lies in identifying effective audio augmentations. We conduct an in-depth
analysis of various audio augmentation strategies and demonstrate that an
appropriate augmentation strategy enhances the performance of the Slowfast
NFNet audio encoder across a diverse set of health acoustic tasks. Our findings
reveal that when augmentations are combined, they can produce synergistic
effects that exceed the benefits seen when each is applied individually.
- Abstract(参考訳): くさびや呼吸音などの健康関連音響信号は、医療診断や継続的な健康モニタリングに関係している。
ヘルスアコースティックスのための既存の機械学習アプローチのほとんどは、特定のタスクに基づいてトレーニングされ、評価され、様々な医療応用における一般化性を制限する。
本稿では,Slowfast NFNetバックボーンを用いた自己教師型学習フレームワークSimCLRを用いて,健康音響の対比学習を行う。
このアプリケーションのためにSlowfast NFNetを最適化する重要な側面は、効果的なオーディオ拡張を特定することである。
各種オーディオ拡張戦略の詳細な分析を行い、適切な拡張戦略により、様々な健康音響タスクにおいて、Slowfast NFNetオーディオエンコーダの性能が向上することを示す。
以上の結果から,増分法を併用すると,それぞれが個別に適用された場合のメリットを超える相乗効果が生じることが明らかとなった。
関連論文リスト
- Improving snore detection under limited dataset through harmonic/percussive source separation and convolutional neural networks [0.0]
Snoringは閉塞性睡眠時無呼吸症候群(OSAS)患者によく見られる音響バイオマーカーである
入力音の高調波成分を解析し,非遮音音とモノラル音を区別する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T10:27:48Z) - HeAR -- Health Acoustic Representations [7.770470897113447]
HeARは、大規模なオーディオクリップのデータセットでトレーニングされたマスク付きオートエンコーダを使用して、スケーラブルな自己教師付き学習ベースのディープラーニングシステムである。
我々は、6つのデータセットにわたる33の健康音響タスクのベンチマークに基づいて、HeARを最先端の健康オーディオ埋め込みモデルとして確立する。
論文 参考訳(メタデータ) (2024-03-04T22:26:25Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for
Improved Dysarthric Speech Recognition [24.07996218669781]
変形性音声の高機能化のためのGAN音声変換法について検討した。
定常雑音除去やボコーダに基づく時間ストレッチといった単純な信号処理手法は,最新のGANベースの音声変換法で得られるものと同等の変形性音声認識結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-01-13T11:56:13Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - DHASP: Differentiable Hearing Aid Speech Processing [23.101074347473904]
聴取者の聴力障害に対する適切な増幅は、良好な演奏に不可欠である。
本稿では,補聴器音声処理フレームワークの導入により,最適な適合度を求めるための代替手法を提案する。
このフレームワークは完全に差別化可能であり、効率的なデータ駆動最適化にバックプロパゲーションアルゴリズムを使用することができる。
最初の目的の実験では、ノイズのない音声増幅に有望な結果が示され、自動最適化されたプロセッサは、よく認識された補聴器処方薬の1つを上回る。
論文 参考訳(メタデータ) (2021-03-15T17:34:22Z) - Respiratory Sound Classification Using Long-Short Term Memory [62.997667081978825]
本稿では,呼吸器疾患の分類に関連して,音の分類を行おうとする際の問題点について検討する。
このようなタスクをどのように実装できるかを特定するために、ディープラーニングと長期短期記憶ネットワークの使用の検討を行う。
論文 参考訳(メタデータ) (2020-08-06T23:11:57Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。