Fugu-MT 論文翻訳(概要): Speaker and Posture Classification using Instantaneous Intraspeech Breathing Features

論文の概要: Speaker and Posture Classification using Instantaneous Intraspeech Breathing Features

arxiv url: http://arxiv.org/abs/2005.12230v1
Date: Mon, 25 May 2020 17:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 06:40:21.979109
Title: Speaker and Posture Classification using Instantaneous Intraspeech Breathing Features
Title（参考訳）: 即時呼吸特徴を用いた話者と姿勢の分類
Authors: At{\i}l \.Ilerialkan, Alptekin Temizel, H\"useyin Hac{\i}habibo\u{g}lu
Abstract要約: 音声内呼吸音を用いた話者と姿勢の分類法を提案する。呼吸音,87%話者分類,98%姿勢分類の精度が得られた。
参考スコア（独自算出の注目度）: 2.578242050187029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Acoustic features extracted from speech are widely used in problems such as biometric speaker identification and first-person activity detection. However, the use of speech for such purposes raises privacy issues as the content is accessible to the processing party. In this work, we propose a method for speaker and posture classification using intraspeech breathing sounds. Instantaneous magnitude features are extracted using the Hilbert-Huang transform (HHT) and fed into a CNN-GRU network for classification of recordings from the open intraspeech breathing sound dataset, BreathBase, that we collected for this study. Using intraspeech breathing sounds, 87% speaker classification, and 98% posture classification accuracy were obtained.
Abstract（参考訳）: 音声から抽出された音響的特徴は、バイオメトリックな話者識別や一人称行動検出などの問題で広く使われている。しかし、そのような目的での音声の使用は、コンテンツが処理相手からアクセス可能なため、プライバシーの問題を引き起こす。本研究では,音声内呼吸音を用いた話者と姿勢の分類手法を提案する。本研究では,Hilbert-Huang 変換 (HHT) を用いて瞬時等級の特徴を抽出し,CNN-GRU ネットワークに入力し,オープン音声内呼吸音声データセット BreathBase から記録の分類を行った。口内呼吸音,87%の話者分類,98%の姿勢分類精度を得た。

関連論文リスト

RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification [8.90841350214225]
本稿では,音声の発話から直接部屋パラメータを推定しやすくするデュアルエンコーダアーキテクチャを提案する。音声と音響応答を同時に埋め込むために、コントラッシブ・ロス・エンコーダ関数を用いる。テスト段階では、残響発話のみが利用可能であり、その埋め込みはルーム形状分類のタスクに使用される。
論文参考訳（メタデータ） (2024-06-05T10:13:55Z)
Careful Whisper -- leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification [0.0]
本稿では,音声記録から音声異常を同定し,音声障害の評価を支援するための完全自動アプローチを提案する。 Connectionist Temporal Classification (CTC) と encoder-decoder-based auto speech recognition model を組み合わせることで、リッチな音響およびクリーンな書き起こしを生成する。そこで本研究では,これらの書き起こしから特徴を抽出し,健全な音声のプロトタイプを作成するために,いくつかの自然言語処理手法を適用した。
論文参考訳（メタデータ） (2023-08-02T15:53:59Z)
Adversarial Representation Learning for Robust Privacy Preservation in Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文参考訳（メタデータ） (2023-04-29T08:39:55Z)
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。 UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文参考訳（メタデータ） (2022-01-14T16:56:43Z)
Preliminary study on using vector quantization latent spaces for TTS/VC systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文参考訳（メタデータ） (2021-06-25T07:51:35Z)
Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。 ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文参考訳（メタデータ） (2021-02-15T07:20:06Z)
Respiratory Distress Detection from Telephone Speech using Acoustic and Prosodic Features [27.77184655808592]
本研究は,よく知られた音響・韻律的特徴を用いた呼吸困難の自動検出に関する予備的知見を要約する。音声サンプルはバングラデシュの医療機関から未確認の遠隔医療電話から収集される。呼吸困難は、声質、発声パターン、発声時間、発声時間などの音声特徴を変化させる可能性があると仮定する。
論文参考訳（メタデータ） (2020-11-15T13:32:45Z)
Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文参考訳（メタデータ） (2020-05-20T01:14:23Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。