Fugu-MT 論文翻訳(概要): Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice

論文の概要: Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice

arxiv url: http://arxiv.org/abs/2311.15582v1
Date: Mon, 27 Nov 2023 07:19:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 16:53:06.950780
Title: Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice
Title（参考訳）: コンセンサス音質評価のための軽量自動音響パラメータ抽出-音声の知覚的評価-
Authors: Yi-Heng Lin, Wen-Hsuan Tseng, Li-Chin Chen, Ching-Ting Tan, Yu Tsao
Abstract要約: 提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
参考スコア（独自算出の注目度）: 18.8222742272435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Consensus Auditory-Perceptual Evaluation of Voice is a widely employed tool in clinical voice quality assessment that is significant for streaming communication among clinical professionals and benchmarking for the determination of further treatment. Currently, because the assessment relies on experienced clinicians, it tends to be inconsistent, and thus, difficult to standardize. To address this problem, we propose to leverage lightly weighted automatic audio parameter extraction, to increase the clinical relevance, reduce the complexity, and enhance the interpretability of voice quality assessment. The proposed method utilizes age, sex, and five audio parameters: jitter, absolute jitter, shimmer, harmonic-to-noise ratio (HNR), and zero crossing. A classical machine learning approach is employed. The result reveals that our approach performs similar to state-of-the-art (SOTA) methods, and outperforms the latent representation obtained by using popular audio pre-trained models. This approach provide insights into the feasibility of different feature extraction approaches for voice evaluation. Audio parameters such as jitter and the HNR are proven to be suitable for characterizing voice quality attributes, such as roughness and strain. Conversely, pre-trained models exhibit limitations in effectively addressing noise-related scorings. This study contributes toward more comprehensive and precise voice quality evaluations, achieved by a comprehensively exploring diverse assessment methodologies.
Abstract（参考訳）: 音声のコンセンサスによる聴覚知覚評価は臨床音声品質評価において広く用いられているツールであり、臨床専門家間のストリーミング通信やさらなる治療の決定のためのベンチマークにおいて重要である。現在、アセスメントは経験豊富な臨床医に依存しているため、一貫性がなく、標準化が困難である。この問題に対処するために,軽度重み付き自動音声パラメータ抽出,臨床的妥当性の向上,複雑さの低減,音声品質評価の解釈性の向上を提案する。提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという5つの音響パラメータを利用する。古典的な機械学習アプローチが採用されている。その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れていた。このアプローチは、音声評価のための異なる特徴抽出アプローチの実現可能性に関する洞察を提供する。ジッタやHNRのような音声パラメータは,粗さや歪みなどの声質特性を特徴付けるのに適していることが証明された。逆に、事前訓練されたモデルは、ノイズ関連のスコアを効果的に扱う際の限界を示す。本研究は,多様な評価手法を包括的に探求し,より包括的で正確な声質評価に寄与する。

関連論文リスト

Structure-Accurate Medical Image Translation based on Dynamic Frequency Balance and Knowledge Guidance [60.33892654669606]
拡散モデルは,必要な医用画像を合成するための強力な戦略である。既存のアプローチはまだ、高周波情報の過度な適合による解剖学的構造歪みの問題に悩まされている。本稿では,動的周波数バランスと知識指導に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-13T05:48:13Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文参考訳（メタデータ） (2025-01-29T18:58:48Z)
Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文参考訳（メタデータ） (2024-12-01T10:35:12Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。 PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文参考訳（メタデータ） (2024-08-22T10:22:53Z)
A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文参考訳（メタデータ） (2024-04-29T16:44:27Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文参考訳（メタデータ） (2022-11-22T11:35:14Z)
Robust Vocal Quality Feature Embeddings for Dysphonic Voice Detection [22.413475757518682]
声質に敏感な音響特徴埋め込みを生成するためのディープラーニングフレームワークを提案する。対照的な損失は、分類損失と組み合わせて、ディープラーニングモデルを共同で訓練する。実験結果から,本手法は高いインコーパスとクロスコーパスの分類精度を実現することが示された。
論文参考訳（メタデータ） (2022-11-17T19:34:59Z)
Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文参考訳（メタデータ） (2022-08-31T21:48:34Z)
DHASP: Differentiable Hearing Aid Speech Processing [23.101074347473904]
聴取者の聴力障害に対する適切な増幅は、良好な演奏に不可欠である。本稿では,補聴器音声処理フレームワークの導入により,最適な適合度を求めるための代替手法を提案する。このフレームワークは完全に差別化可能であり、効率的なデータ駆動最適化にバックプロパゲーションアルゴリズムを使用することができる。最初の目的の実験では、ノイズのない音声増幅に有望な結果が示され、自動最適化されたプロセッサは、よく認識された補聴器処方薬の1つを上回る。
論文参考訳（メタデータ） (2021-03-15T17:34:22Z)
Exploration of Audio Quality Assessment and Anomaly Localisation Using Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文参考訳（メタデータ） (2020-05-16T17:54:07Z)
Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato [68.97335984455059]
本研究の目的は,ALS患者の自動検出のための持続母音発声テストの有用性を検証することである。そこで我々は,音声信号から測定値の計算に必要な基本周期への分離手順の強化を提案した。
論文参考訳（メタデータ） (2020-03-24T12:49:25Z)
Opportunities of a Machine Learning-based Decision Support System for Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文参考訳（メタデータ） (2020-02-27T17:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。