論文の概要: Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice
- arxiv url: http://arxiv.org/abs/2311.15582v1
- Date: Mon, 27 Nov 2023 07:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:53:06.950780
- Title: Lightly Weighted Automatic Audio Parameter Extraction for the Quality
Assessment of Consensus Auditory-Perceptual Evaluation of Voice
- Title(参考訳): コンセンサス音質評価のための軽量自動音響パラメータ抽出-音声の知覚的評価-
- Authors: Yi-Heng Lin, Wen-Hsuan Tseng, Li-Chin Chen, Ching-Ting Tan, Yu Tsao
- Abstract要約: 提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
- 参考スコア(独自算出の注目度): 18.8222742272435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Consensus Auditory-Perceptual Evaluation of Voice is a widely employed
tool in clinical voice quality assessment that is significant for streaming
communication among clinical professionals and benchmarking for the
determination of further treatment. Currently, because the assessment relies on
experienced clinicians, it tends to be inconsistent, and thus, difficult to
standardize. To address this problem, we propose to leverage lightly weighted
automatic audio parameter extraction, to increase the clinical relevance,
reduce the complexity, and enhance the interpretability of voice quality
assessment. The proposed method utilizes age, sex, and five audio parameters:
jitter, absolute jitter, shimmer, harmonic-to-noise ratio (HNR), and zero
crossing. A classical machine learning approach is employed. The result reveals
that our approach performs similar to state-of-the-art (SOTA) methods, and
outperforms the latent representation obtained by using popular audio
pre-trained models. This approach provide insights into the feasibility of
different feature extraction approaches for voice evaluation. Audio parameters
such as jitter and the HNR are proven to be suitable for characterizing voice
quality attributes, such as roughness and strain. Conversely, pre-trained
models exhibit limitations in effectively addressing noise-related scorings.
This study contributes toward more comprehensive and precise voice quality
evaluations, achieved by a comprehensively exploring diverse assessment
methodologies.
- Abstract(参考訳): 音声のコンセンサスによる聴覚知覚評価は臨床音声品質評価において広く用いられているツールであり、臨床専門家間のストリーミング通信やさらなる治療の決定のためのベンチマークにおいて重要である。
現在、アセスメントは経験豊富な臨床医に依存しているため、一貫性がなく、標準化が困難である。
この問題に対処するために,軽度重み付き自動音声パラメータ抽出,臨床的妥当性の向上,複雑さの低減,音声品質評価の解釈性の向上を提案する。
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという5つの音響パラメータを利用する。
古典的な機械学習アプローチが採用されている。
その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れていた。
このアプローチは、音声評価のための異なる特徴抽出アプローチの実現可能性に関する洞察を提供する。
ジッタやHNRのような音声パラメータは,粗さや歪みなどの声質特性を特徴付けるのに適していることが証明された。
逆に、事前訓練されたモデルは、ノイズ関連のスコアを効果的に扱う際の限界を示す。
本研究は,多様な評価手法を包括的に探求し,より包括的で正確な声質評価に寄与する。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文 参考訳(メタデータ) (2024-04-29T16:44:27Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection [22.413475757518682]
声質に敏感な音響特徴埋め込みを生成するためのディープラーニングフレームワークを提案する。
対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。
実験結果から,本手法は高いインコーパスとクロスコーパスの分類精度を実現することが示された。
論文 参考訳(メタデータ) (2022-11-17T19:34:59Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - DHASP: Differentiable Hearing Aid Speech Processing [23.101074347473904]
聴取者の聴力障害に対する適切な増幅は、良好な演奏に不可欠である。
本稿では,補聴器音声処理フレームワークの導入により,最適な適合度を求めるための代替手法を提案する。
このフレームワークは完全に差別化可能であり、効率的なデータ駆動最適化にバックプロパゲーションアルゴリズムを使用することができる。
最初の目的の実験では、ノイズのない音声増幅に有望な結果が示され、自動最適化されたプロセッサは、よく認識された補聴器処方薬の1つを上回る。
論文 参考訳(メタデータ) (2021-03-15T17:34:22Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z) - Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato [68.97335984455059]
本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。
そこで我々は,音声信号から測定値の計算に必要な基本周期への分離手順の強化を提案した。
論文 参考訳(メタデータ) (2020-03-24T12:49:25Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。