Fugu-MT 論文翻訳(概要): An Objective Evaluation Framework for Pathological Speech Synthesis

論文の概要: An Objective Evaluation Framework for Pathological Speech Synthesis

arxiv url: http://arxiv.org/abs/2107.00308v1
Date: Thu, 1 Jul 2021 08:55:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-02 21:18:50.520659
Title: An Objective Evaluation Framework for Pathological Speech Synthesis
Title（参考訳）: 病的音声合成のための客観的評価フレームワーク
Authors: Bence Mark Halpern, Julian Fritsch, Enno Hermann, Rob van Son, Odette Scharenborg, Mathew Magimai.-Doss
Abstract要約: そこで本研究では,合成病理音声の一貫した評価のための一般的な枠組みを提案する。この枠組みは音声の質と可聴性を評価する。本研究では, 異なるレベルの音声の理解度で, 変形性音声を合成できることを示す。
参考スコア（独自算出の注目度）: 36.41726606690864
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of pathological speech systems is currently hindered by the lack of a standardised objective evaluation framework. In this work, (1) we utilise existing detection and analysis techniques to propose a general framework for the consistent evaluation of synthetic pathological speech. This framework evaluates the voice quality and the intelligibility aspects of speech and is shown to be complementary using our experiments. (2) Using our proposed evaluation framework, we develop and test a dysarthric voice conversion system (VC) using CycleGAN-VC and a PSOLA-based speech rate modification technique. We show that the developed system is able to synthesise dysarthric speech with different levels of speech intelligibility.
Abstract（参考訳）: 病的発話システムの開発は、現在標準化された客観的評価フレームワークの欠如によって妨げられている。本研究では,(1)既存の検出・解析手法を用いて,合成病理音声の一貫した評価のための汎用的枠組みを提案する。この枠組みは, 音声の質と可聴性を評価し, 実験により相補的であることを示す。 2)提案手法を用いて,CycleGAN-VC と PSOLA を用いた音声変換システム (VC) の開発と試験を行った。開発したシステムでは, 異なるレベルの音声明瞭度を有する構音音声を合成できることを示す。

関連論文リスト

Audio-Vision Contrastive Learning for Phonological Class Recognition [6.476789653980653]
実時間磁気共鳴画像(rtMRI)と音声信号を組み合わせて3つの重要な調音次元を分類する多モードディープラーニングフレームワークを提案する。 USC-TIMITデータセットによる実験結果から,我々のコントラスト学習に基づくアプローチが最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-07-23T16:44:22Z)
AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文参考訳（メタデータ） (2025-07-17T00:39:18Z)
Acoustic to Articulatory Inversion of Speech; Data Driven Approaches, Challenges, Applications, and Future Scope [0.0]
本稿では,音声のAAI(Auance-to-Articulatory Inversion)の異なる応用に適用したデータ駆動型アプローチについて述べる。
論文参考訳（メタデータ） (2025-04-17T19:38:50Z)
NeuroXVocal: Detection and Explanation of Alzheimer's Disease through Non-invasive Analysis of Picture-prompted Speech [4.815952991777717]
NeuroXVocalは、音声分析によってアルツハイマー病(AD)の可能性を分類し、説明する新しい二重成分システムである。分類コンポーネント(Neuro)は、音声パターンと音声特徴をキャプチャする音響特徴、音声書き起こしから抽出したテキスト特徴、言語パターンを表す事前計算された埋め込みの3つの異なるデータストリームを処理する。説明可能性コンポーネント(XVocal)は、大規模言語モデルとAD研究文献のドメイン固有の知識ベースを組み合わせた、検索・拡張生成(RAG)アプローチを実装している。
論文参考訳（メタデータ） (2025-02-14T12:09:49Z)
Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文参考訳（メタデータ） (2025-01-29T18:58:48Z)
Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech [13.475654818182988]
本解説では, 変形性音声の言語間信頼度評価を推し進めるための概念的枠組みを紹介する。音声・音声表現に変形音声をエンコードするユニバーサル音声モデルを提案し,それに続いて言語固有の知性評価モデルを提案する。
論文参考訳（メタデータ） (2025-01-27T08:35:19Z)
Unveiling Interpretability in Self-Supervised Speech Representations for Parkinson's Diagnosis [9.91077163490596]
本稿では,パーキンソン病の診断を支援するための新しい枠組みを提案する。提案するフレームワークは, 単純かつ効果的なクロスアテンション機構の設計を通じて, 2つの異なる相補的視点から解釈可能性を提供する。提案手法は最先端の手法と競合すると同時に,言語間シナリオにおける堅牢性も実証する。
論文参考訳（メタデータ） (2024-12-02T22:23:43Z)
Automating Feedback Analysis in Surgical Training: Detection, Categorization, and Assessment [65.70317151363204]
本研究は,非構造化現実記録からの外科的対話を再構築するための最初の枠組みを紹介する。外科訓練では,ライブ手術中に訓練者に提供する形式的言語フィードバックは,安全性の確保,行動の即時修正,長期的スキル獲得の促進に不可欠である。本フレームワークは,音声活動の検出,話者ダイアリゼーション,自動音声認識と,幻覚を除去する新たな拡張機能を統合する。
論文参考訳（メタデータ） (2024-12-01T10:35:12Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文参考訳（メタデータ） (2024-04-29T16:44:27Z)
Lightly Weighted Automatic Audio Parameter Extraction for the Quality Assessment of Consensus Auditory-Perceptual Evaluation of Voice [18.8222742272435]
提案手法は, ジッタ, 絶対ジッタ, シャマー, ハーモニック・ツー・ノイズ比 (HNR) , ゼロクロスという, 年齢, 性別, および5つの音響パラメータを利用する。その結果,提案手法は最先端技術(SOTA)手法と類似し,一般的な音声事前学習モデルを用いて得られた潜在表現よりも優れることがわかった。
論文参考訳（メタデータ） (2023-11-27T07:19:22Z)
Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文参考訳（メタデータ） (2023-10-25T08:55:48Z)
End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文参考訳（メタデータ） (2022-07-08T05:18:36Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Manipulation of oral cancer speech using neural articulatory synthesis [12.537892439672115]
調音合成システムは、調音軌跡を操作でき、合成された音声が、基底真実の口腔癌音声に存在する問題を再現することができる。客観的かつ主観的な評価は、このフレームワークが自然性を受け入れており、さらなる調査に値することを示している。
論文参考訳（メタデータ） (2022-03-31T14:40:51Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
Towards Identity Preserving Normal to Dysarthric Voice Conversion [37.648612382457756]
本稿では, 話者識別を保ちながら, 正常音声を変形音声に変換する枠組みを提案する。本研究は,(1)患者のストレスを緩和する臨床的意思決定プロセス,(2)顎関節症音声認識のためのデータ増強に不可欠である。
論文参考訳（メタデータ） (2021-10-15T17:18:02Z)
A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。変形性音声の質は統計VCによって大幅に改善される。しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文参考訳（メタデータ） (2021-06-02T18:41:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。