論文の概要: Making deep neural networks work for medical audio: representation, compression and domain adaptation
- arxiv url: http://arxiv.org/abs/2506.13970v1
- Date: Sat, 24 May 2025 20:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.648087
- Title: Making deep neural networks work for medical audio: representation, compression and domain adaptation
- Title(参考訳): ディープニューラルネットワークを医療オーディオに活用する:表現、圧縮、ドメイン適応
- Authors: Charles C Onu,
- Abstract要約: この論文は、医療オーディオ信号の理解と解釈に機械学習を適用するという技術的課題に対処する。
乳幼児の泣き声の分析に焦点をあてて, 健康状態を予測する。
この領域の研究を進めるために、乳幼児の泣き声のユニークなオープンソースデータセットをリリースする。
- 参考スコア(独自算出の注目度): 1.1059341532498634
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This thesis addresses the technical challenges of applying machine learning to understand and interpret medical audio signals. The sounds of our lungs, heart, and voice convey vital information about our health. Yet, in contemporary medicine, these sounds are primarily analyzed through auditory interpretation by experts using devices like stethoscopes. Automated analysis offers the potential to standardize the processing of medical sounds, enable screening in low-resource settings where physicians are scarce, and detect subtle patterns that may elude human perception, thereby facilitating early diagnosis and treatment. Focusing on the analysis of infant cry sounds to predict medical conditions, this thesis contributes on four key fronts. First, in low-data settings, we demonstrate that large databases of adult speech can be harnessed through neural transfer learning to develop more accurate and robust models for infant cry analysis. Second, in cost-effective modeling, we introduce an end-to-end model compression approach for recurrent networks using tensor decomposition. Our method requires no post-hoc processing, achieves compression rates of several hundred-fold, and delivers accurate, portable models suitable for resource-constrained devices. Third, we propose novel domain adaptation techniques tailored for audio models and adapt existing methods from computer vision. These approaches address dataset bias and enhance generalization across domains while maintaining strong performance on the original data. Finally, to advance research in this domain, we release a unique, open-source dataset of infant cry sounds, developed in collaboration with clinicians worldwide. This work lays the foundation for recognizing the infant cry as a vital sign and highlights the transformative potential of AI-driven audio monitoring in shaping the future of accessible and affordable healthcare.
- Abstract(参考訳): この論文は、医療オーディオ信号の理解と解釈に機械学習を適用するという技術的課題に対処する。
肺、心臓、そして声の音は、私たちの健康に関する重要な情報を伝える。
しかし現代医学では、これらの音は主に聴診器などの装置を用いた専門家による聴覚解釈によって分析される。
自動分析は、医療音の処理を標準化する可能性を提供し、医師が不足している低リソース環境でのスクリーニングを可能にし、人間の知覚を損なう可能性のある微妙なパターンを検出し、早期診断と治療を容易にする。
乳幼児の泣く音の分析に焦点をあてて、この論文は4つの重要な側面に寄与する。
まず、低データ環境では、幼児の泣き声分析のためのより正確で堅牢なモデルを開発するために、ニューラルトランスファーラーニングによって成人音声の大規模データベースを活用できることを実証する。
第二に、コスト効率のよいモデリングにおいて、テンソル分解を用いた繰り返しネットワークに対するエンドツーエンドのモデル圧縮手法を導入する。
提案手法では, ポストホック処理を必要とせず, 数百倍の圧縮速度を達成し, 資源制約のあるデバイスに適した, 正確でポータブルなモデルを提供する。
第3に、音声モデルに適した新しい領域適応手法を提案し、コンピュータビジョンから既存の手法を適用する。
これらのアプローチは、データセットバイアスに対処し、元のデータに対する強力なパフォーマンスを維持しながら、ドメイン間の一般化を強化する。
最後に、この領域の研究を進めるために、世界中の臨床医と共同で開発された乳幼児の泣き声のユニークなオープンソースデータセットをリリースする。
この研究は、幼児の泣き声を重要な兆候として認識する基盤を築き、アクセスしやすく手頃な価格の医療の未来を形作るAI駆動型オーディオモニタリングの変革の可能性を強調している。
関連論文リスト
- Determining Fetal Orientations From Blind Sweep Ultrasound Video [1.3456699275044242]
この作品は、自動化された胎児の嘘予測を導入し、それを置き換えるのではなく、ソノグラフィーの専門知識を強化する補助パラダイムを提案することで、自分自身を区別している。
今後の研究は、取得効率の向上と、ワークフローを改善するためのリアルタイム臨床統合と、産科医のサポートに焦点をあてる。
論文 参考訳(メタデータ) (2025-04-09T12:51:15Z) - Detecting abnormal heart sound using mobile phones and on-device IConNet [0.0]
本稿では、携帯電話とオンデバイス推論に最適化された軽量ニューラルネットワークを利用して、異常な心臓音検出のためのユーザフレンドリーなソリューションを提案する。
解釈可能な畳み込みニューラルネットワークであるIConNetは、音声信号処理からの洞察を活用し、効率を向上し、生波形信号からニューラルネットワークを抽出する透明性を提供する。
論文 参考訳(メタデータ) (2024-12-04T12:18:21Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Voice EHR: Introducing Multimodal Audio Data for Health [3.8090294667599927]
既存の技術は、高所得国で高価な記録機器で収集された限られたデータセットに依存している。
本報告では、モバイル/ウェブアプリケーションのみを用いて、ガイド付き質問を通じて健康データをキャプチャする新しいデータ型とそれに対応する収集システムを紹介する。
論文 参考訳(メタデータ) (2024-04-02T04:07:22Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - HEAR4Health: A blueprint for making computer audition a staple of modern
healthcare [89.8799665638295]
近年、従来の医療システムを変革する試みとして、デジタル医療の研究が急速に増加している。
コンピュータによるオーディションは、少なくとも商業的関心の面では遅れている。
実生活における聴覚信号の分析に必要な基礎技術に対応する聴覚、計算とデータ効率の進歩、個々の差異を考慮し、医療データの長手性を扱う聴覚。
論文 参考訳(メタデータ) (2023-01-25T09:25:08Z) - Ultrasound Signal Processing: From Models to Deep Learning [64.56774869055826]
医用超音波画像は、信頼性と解釈可能な画像再構成を提供するために、高品質な信号処理に大きく依存している。
データ駆動方式で最適化されたディープラーニングベースの手法が人気を集めている。
比較的新しいパラダイムは、データ駆動型ディープラーニングの活用とドメイン知識の活用という2つのパワーを組み合わせたものだ。
論文 参考訳(メタデータ) (2022-04-09T13:04:36Z) - Convolutional Neural Network-Based Age Estimation Using B-Mode
Ultrasound Tongue Image [10.100437437151621]
話者の超音波舌画像を用いた年齢推定の実現可能性について検討する。
深層学習の成功に動機づけられた本論文は,この課題に深層学習を活用する。
提案手法は,音声セラピーセッションの性能を評価するツールとして利用できる。
論文 参考訳(メタデータ) (2021-01-27T08:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。