論文の概要: HeAR -- Health Acoustic Representations
- arxiv url: http://arxiv.org/abs/2403.02522v1
- Date: Mon, 4 Mar 2024 22:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:51:06.263642
- Title: HeAR -- Health Acoustic Representations
- Title(参考訳): HeAR - 健康アコースティックな表現
- Authors: Sebastien Baur, Zaid Nabulsi, Wei-Hung Weng, Jake Garrison, Louis
Blankemeier, Sam Fishman, Christina Chen, Sujay Kakarmath, Minyoi Maimbolwa,
Nsala Sanjase, Brian Shuma, Yossi Matias, Greg S. Corrado, Shwetak Patel,
Shravya Shetty, Shruthi Prabhakara, Monde Muyoyeta, Diego Ardila
- Abstract要約: HeARは、大規模なオーディオクリップのデータセットでトレーニングされたマスク付きオートエンコーダを使用して、スケーラブルな自己教師付き学習ベースのディープラーニングシステムである。
我々は、6つのデータセットにわたる33の健康音響タスクのベンチマークに基づいて、HeARを最先端の健康オーディオ埋め込みモデルとして確立する。
- 参考スコア(独自算出の注目度): 7.770470897113447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Health acoustic sounds such as coughs and breaths are known to contain useful
health signals with significant potential for monitoring health and disease,
yet are underexplored in the medical machine learning community. The existing
deep learning systems for health acoustics are often narrowly trained and
evaluated on a single task, which is limited by data and may hinder
generalization to other tasks. To mitigate these gaps, we develop HeAR, a
scalable self-supervised learning-based deep learning system using masked
autoencoders trained on a large dataset of 313 million two-second long audio
clips. Through linear probes, we establish HeAR as a state-of-the-art health
audio embedding model on a benchmark of 33 health acoustic tasks across 6
datasets. By introducing this work, we hope to enable and accelerate further
health acoustics research.
- Abstract(参考訳): くさびや息のような健康音は、健康や病気をモニターする重要な可能性を持つ有用な健康信号を含むことが知られているが、医療機械学習コミュニティでは過小評価されている。
健康音響のための既存のディープラーニングシステムは、データによって制限され、他のタスクへの一般化を妨げる可能性のある単一のタスクで、狭く訓練され、評価されることが多い。
これらのギャップを軽減するために,3億1300万の2秒間の音声クリップからなる大規模データセットでトレーニングされたマスク付きオートエンコーダを使用した,スケーラブルな自己教師付き学習ベースのディープラーニングシステムであるhearを開発した。
線形プローブを用いて,6つのデータセットにまたがる33の健全な音響タスクのベンチマークにおいて,最新の健康音声埋め込みモデルとして hear を確立した。
この研究を導入することで、さらなるヘルスアコースティックス研究の実現と加速を期待する。
関連論文リスト
- RespLLM: Unifying Audio and Text with Multimodal LLMs for Generalized Respiratory Health Prediction [20.974460332254544]
RespLLMは、呼吸健康予測のためのテキストと音声の表現を統一する新しいフレームワークである。
我々の研究は、異種データの知覚、聴取、理解が可能なマルチモーダルモデルの基礎を築いた。
論文 参考訳(メタデータ) (2024-10-07T17:06:11Z) - Towards Open Respiratory Acoustic Foundation Models: Pretraining and Benchmarking [27.708473070563013]
呼吸器オーディオは幅広い医療応用の予測力を持っているが、現在はまだ探索されていない。
OPERA(OPEn Respiratory Acoustic foundation model Pretraining and benchmarking system)を紹介する。
論文 参考訳(メタデータ) (2024-06-23T16:04:26Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.8090294667599927]
既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Optimizing Audio Augmentations for Contrastive Learning of
Health-Related Acoustic Signals [8.318391689611971]
くさびや呼吸音などの健康関連音響信号は、医学的診断と継続的な健康モニタリングに関係している。
我々は、Slowfast NFNetバックボーンを備えた自己教師型学習フレームワークSimCLRを、健康音響の対照的な学習に活用する。
Slowfast NFNetオーディオエンコーダの性能向上を図るため, 各種オーディオエンコーダの詳細な分析を行い, 適切な拡張戦略を示す。
論文 参考訳(メタデータ) (2023-09-11T22:03:34Z) - Deep Feature Learning for Medical Acoustics [78.56998585396421]
本研究の目的は,医療音響の課題における学習内容の比較である。
ヒトの呼吸音と心臓の鼓動を健康的または病態の影響の2つのカテゴリに分類する枠組みが実装されている。
論文 参考訳(メタデータ) (2022-08-05T10:39:37Z) - User-Driven Research of Medical Note Generation Software [49.85146209418244]
本稿では,医療用ノート生成システム開発における3ラウンドのユーザスタディについて述べる。
参加する臨床医の印象と,システムがどのようにそれらに価値あるものに適合すべきかの視点について論じる。
遠隔医療における3週間のシステムテストについて述べる。
論文 参考訳(メタデータ) (2022-05-05T10:18:06Z) - Noise-Resilient Automatic Interpretation of Holter ECG Recordings [67.59562181136491]
本稿では,ホルター記録を雑音に頑健に解析する3段階プロセスを提案する。
第1段階は、心拍位置を検出する勾配デコーダアーキテクチャを備えたセグメンテーションニューラルネットワーク(NN)である。
第2段階は、心拍を幅または幅に分類する分類NNである。
第3のステージは、NN機能の上に、患者対応機能を組み込んだ強化決定木(GBDT)である。
論文 参考訳(メタデータ) (2020-11-17T16:15:49Z) - Respiratory Sound Classification Using Long-Short Term Memory [62.997667081978825]
本稿では,呼吸器疾患の分類に関連して,音の分類を行おうとする際の問題点について検討する。
このようなタスクをどのように実装できるかを特定するために、ディープラーニングと長期短期記憶ネットワークの使用の検討を行う。
論文 参考訳(メタデータ) (2020-08-06T23:11:57Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。