論文の概要: Pre-Trained Foundation Model representations to uncover Breathing patterns in Speech
- arxiv url: http://arxiv.org/abs/2407.13035v1
- Date: Wed, 17 Jul 2024 21:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:23:28.014120
- Title: Pre-Trained Foundation Model representations to uncover Breathing patterns in Speech
- Title(参考訳): 音声の発声パターンを明らかにするための事前学習基礎モデル表現
- Authors: Vikramjit Mitra, Anirban Chatterjee, Ke Zhai, Helen Weng, Ayuko Hill, Nicole Hay, Christopher Webb, Jamie Cheng, Erdrin Azemi,
- Abstract要約: 呼吸速度(英: respiratory rate, RR)は、個人の健康、フィットネス、健康全般を評価するために用いられる重要な指標である。
RRを測定するための既存のアプローチは、特殊装備や訓練を用いて実施されている。
機械学習アルゴリズムは、バイオセンサー信号を入力としてRRを推定できることを示した。
- 参考スコア(独自算出の注目度): 2.935056044470713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The process of human speech production involves coordinated respiratory action to elicit acoustic speech signals. Typically, speech is produced when air is forced from the lungs and is modulated by the vocal tract, where such actions are interspersed by moments of breathing in air (inhalation) to refill the lungs again. Respiratory rate (RR) is a vital metric that is used to assess the overall health, fitness, and general well-being of an individual. Existing approaches to measure RR (number of breaths one takes in a minute) are performed using specialized equipment or training. Studies have demonstrated that machine learning algorithms can be used to estimate RR using bio-sensor signals as input. Speech-based estimation of RR can offer an effective approach to measure the vital metric without requiring any specialized equipment or sensors. This work investigates a machine learning based approach to estimate RR from speech segments obtained from subjects speaking to a close-talking microphone device. Data were collected from N=26 individuals, where the groundtruth RR was obtained through commercial grade chest-belts and then manually corrected for any errors. A convolutional long-short term memory network (Conv-LSTM) is proposed to estimate respiration time-series data from the speech signal. We demonstrate that the use of pre-trained representations obtained from a foundation model, such as Wav2Vec2, can be used to estimate respiration-time-series with low root-mean-squared error and high correlation coefficient, when compared with the baseline. The model-driven time series can be used to estimate $RR$ with a low mean absolute error (MAE) ~ 1.6 breaths/min.
- Abstract(参考訳): 人間の音声生成の過程は、音響音声信号を引き出すための協調的な呼吸行動を含む。
通常は、空気が肺から押し出され、声道によって調節されるときに発せられるが、そのような作用は空気中の呼吸の瞬間(吸入)によって拡散され、再び肺を補充する。
呼吸速度(英: respiratory rate, RR)は、個人の健康、フィットネス、健康全般を評価するために用いられる重要な指標である。
RR(1分間に1回の呼吸数)を測定するための既存のアプローチは、特殊装備や訓練を用いて実施されている。
機械学習アルゴリズムは、バイオセンサー信号を入力としてRRを推定できることを示した。
RRの音声に基づく推定は、特別な機器やセンサーを必要とせずに、バイタルメトリックを測定する効果的なアプローチを提供することができる。
本研究は,話者から発声した音声区間からRRを推定する機械学習に基づく手法について検討する。
N=26個体からデータを収集し, 市販の胸部ベルトを用いて基礎RRを採取し, エラーを手動で修正した。
音声信号から呼吸時間時系列データを推定するために,畳み込み長短記憶ネットワーク(Conv-LSTM)を提案する。
本稿では,Wav2Vec2などの基礎モデルから得られた事前学習表現を用いて,根平均二乗誤差と高い相関係数で呼吸時間列を推定できることを示す。
モデル駆動の時系列は、最低平均絶対誤差(MAE)~1.6呼吸/分で$RR$を推定するのに使うことができる。
関連論文リスト
- Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases [5.810320353233697]
本稿では,呼吸音の認識に適した大規模モデルであるReneを紹介する。
我々の革新的なアプローチは、事前訓練された音声認識モデルを用いて呼吸音を処理している。
我々は,Reneアーキテクチャを用いた実時間呼吸音識別システムを開発した。
論文 参考訳(メタデータ) (2024-05-13T03:00:28Z) - SMRD: SURE-based Robust MRI Reconstruction with Diffusion Models [76.43625653814911]
拡散モデルは、高い試料品質のため、MRIの再生を加速するために人気を博している。
推論時に柔軟にフォワードモデルを組み込んだまま、効果的にリッチなデータプリエントとして機能することができる。
拡散モデル(SMRD)を用いたSUREに基づくMRI再構成を導入し,テスト時の堅牢性を向上する。
論文 参考訳(メタデータ) (2023-10-03T05:05:35Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Using BOLD-fMRI to Compute the Respiration Volume per Time (RTV) and
Respiration Variation (RV) with Convolutional Neural Networks (CNN) in the
Human Connectome Development Cohort [55.41644538483948]
本研究では, RVとRVTの2つの呼吸対策を再現するための1次元CNNモデルを提案する。
その結果、CNNはBOLD信号の静止から情報的特徴を捉え、現実的なRVとRVTのタイムリーを再構築できることがわかった。
論文 参考訳(メタデータ) (2023-07-03T18:06:36Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - A Deep Learning Based Multitask Network for Respiration Rate Estimation
-- A Practical Perspective [1.290382979353427]
本稿では,心電図および加速度計信号から瞬時および平均呼吸速度を推定するための,ディープラーニング(DL)に基づくマルチタスクアーキテクチャを提案する。
提案モデルでは, 動作の異なる個々のモダリティよりも, 全体的な精度が向上し, より良好な結果が得られた。
論文 参考訳(メタデータ) (2021-12-13T11:33:42Z) - Estimating Respiratory Rate From Breath Audio Obtained Through Wearable
Microphones [6.293929325572208]
呼吸速度(英: respiratory rate、RR)は、全身の健康状態と体力を評価するための臨床指標である。
本研究は,健常成人における身体運動後に得られた短い音声区間からRRを推定するためのモデル駆動アプローチについて検討する。
論文 参考訳(メタデータ) (2021-07-28T17:24:44Z) - A Novel Non-Invasive Estimation of Respiration Rate from
Photoplethysmograph Signal Using Machine Learning Model [0.0]
呼吸速度 (RR) は患者の健康を示す重要な指標である。
リアルタイムの連続RRモニタリング施設は集中ケアユニット(ICU)でのみ利用可能です。
最近の研究では、RR推定のためのPhotoplethysmogram(ECG)および/心電図(ECG)信号が提案されている。
本稿では,PPG信号特性を有する機械学習(ML)モデルを用いたRR推定手法について述べる。
論文 参考訳(メタデータ) (2021-02-18T17:08:50Z) - Multispectral Video Fusion for Non-contact Monitoring of Respiratory
Rate and Apnea [7.300192965401497]
呼吸の非接触モニタリングは、近赤外線と遠赤外線のスペクトルカメラで達成できる。
本研究では,無呼吸時の呼吸速度(RR)を推定する多スペクトルデータ融合に基づく新しいアルゴリズムを提案する。
本研究は,医療応用におけるサインモニタリングにおけるカメラの活用に向けての一歩となる可能性がある。
論文 参考訳(メタデータ) (2020-04-21T09:07:09Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。