論文の概要: Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech
- arxiv url: http://arxiv.org/abs/2509.15473v1
- Date: Thu, 18 Sep 2025 22:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.926432
- Title: Breathing and Semantic Pause Detection and Exertion-Level Classification in Post-Exercise Speech
- Title(参考訳): 運動後音声における呼吸・意味的ポーズ検出と運動レベル分類
- Authors: Yuyu Wang, Wuyue Xia, Huaxiu Yao, Jingping Nie,
- Abstract要約: 運動後のスピーチには豊富な生理的・言語的な手がかりが含まれており、しばしば意味的なポーズ、呼吸停止、呼吸・情緒的な一時停止が特徴である。
本研究では,ポーズ型の体系的なアノテーションを提供し,深層学習モデル全体にわたって,探索的呼吸と意味的停止検出と実行レベル分類を行う。
その結果,各タイプの検出精度はセマンティクスで89$%,呼吸で55$%,複合停止で86$%,オーバーオールで73$%まで向上した。
- 参考スコア(独自算出の注目度): 33.39650261642241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-exercise speech contains rich physiological and linguistic cues, often marked by semantic pauses, breathing pauses, and combined breathing-semantic pauses. Detecting these events enables assessment of recovery rate, lung function, and exertion-related abnormalities. However, existing works on identifying and distinguishing different types of pauses in this context are limited. In this work, building on a recently released dataset with synchronized audio and respiration signals, we provide systematic annotations of pause types. Using these annotations, we systematically conduct exploratory breathing and semantic pause detection and exertion-level classification across deep learning models (GRU, 1D CNN-LSTM, AlexNet, VGG16), acoustic features (MFCC, MFB), and layer-stratified Wav2Vec2 representations. We evaluate three setups-single feature, feature fusion, and a two-stage detection-classification cascade-under both classification and regression formulations. Results show per-type detection accuracy up to 89$\%$ for semantic, 55$\%$ for breathing, 86$\%$ for combined pauses, and 73$\%$overall, while exertion-level classification achieves 90.5$\%$ accuracy, outperformin prior work.
- Abstract(参考訳): 運動後のスピーチには豊富な生理的・言語的な手がかりが含まれており、しばしば意味的なポーズ、呼吸停止、呼吸・情緒的な一時停止が特徴である。
これらの事象を検出することで、回復率、肺機能、運動に関連した異常を評価することができる。
しかし、この文脈で異なるタイプの停止を識別し、区別する既存の作業は限られている。
本研究は,同期音声と呼吸信号を用いた最近リリースされたデータセット上に構築し,停止型の体系的なアノテーションを提供する。
これらのアノテーションを用いて、深層学習モデル(GRU, 1D CNN-LSTM, AlexNet, VGG16)、音響特性(MFCC, MFB)、層層化Wav2Vec2表現を探索的呼吸・意味的停止検出・運動レベル分類を行う。
我々は,3つのセットアップ・シングルの特徴,特徴融合,および2段階検出・分類カスケードを分類・回帰式で評価した。
その結果,各タイプの検出精度はセマンティクスで89$\%,呼吸で55$\%,複合停止で86$\%,オーバーオールで73$\%となった。
関連論文リスト
- EZhouNet:A framework based on graph neural network and anchor interval for the respiratory sound event detection [7.29257171556766]
可変長オーディオを処理可能なアンカー間隔を持つグラフニューラルネットワークベースのフレームワークを提案する。
本手法は呼吸音検出の柔軟性と適用性を両立させる。
論文 参考訳(メタデータ) (2025-09-01T06:10:30Z) - Reading Between the Lines: Combining Pause Dynamics and Semantic Coherence for Automated Assessment of Thought Disorder [8.239710313549466]
本研究では,ポーズ機能と3つのデータセット間のセマンティックコヒーレンスメトリクスを統合する。
重要な発見は、停止機能だけで形式的思考障害(FTD)の重症度を確実に予測できることである。
これらの結果から,時間的分析と意味的分析を組み合わせたフレームワークが,非編成音声の評価を洗練するためのロードマップを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-17T22:00:16Z) - Infusing Acoustic Pause Context into Text-Based Dementia Assessment [7.8642589679025034]
本研究は, 認知障害のない被験者の認知状態, 軽度認知障害, およびアルツハイマー認知症を, 臨床的評価に基づいて区別するために, 言語モデルにおける停止強調文字の使用について検討した。
この性能は、ドイツ語の言語頻度テストと画像記述テストの実験を通じて評価され、異なる音声生成コンテキストにおけるモデルの有効性を比較した。
論文 参考訳(メタデータ) (2024-08-27T16:44:41Z) - Seq2seq for Automatic Paraphasia Detection in Aphasic Speech [14.686874756530322]
失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
論文 参考訳(メタデータ) (2023-12-16T18:22:37Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection [54.366236719520565]
時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:28Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - $M^3$T: Multi-Modal Continuous Valence-Arousal Estimation in the Wild [86.40973759048957]
本報告では、ABAW(Affective Behavior Analysis in-the-wild)チャレンジの価-覚醒的評価トラックへの提案に基づくマルチモーダルマルチタスク(M3$T)アプローチについて述べる。
提案したM3$Tフレームワークでは,ビデオの視覚的特徴とオーディオトラックの音響的特徴の両方を融合させて,有声度と覚醒度を推定する。
ABAW が提供する検証セットに対して,M3$T フレームワークを評価し,ベースライン法を著しく上回る性能を示した。
論文 参考訳(メタデータ) (2020-02-07T18:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。