論文の概要: APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech
- arxiv url: http://arxiv.org/abs/2504.20447v1
- Date: Tue, 29 Apr 2025 05:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.767997
- Title: APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech
- Title(参考訳): APG-MOS:合成音声のための聴覚知覚誘導型MOS予測器
- Authors: Zhicheng Lian, Lizhi Wang, Hua Huang,
- Abstract要約: 音声品質評価は、音声の主観的人間の知覚を定量化することを目的としている。
聴覚知覚誘導型MOS予測モデル(APG-MOS)を提案する。
APG-MOSは、人間の判断との整合性を高めるために、聴覚モデリングと意味分析を統合している。
- 参考スコア(独自算出の注目度): 20.311467577180274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech quality assessment aims to quantify subjective human perception of speech through computational models to reduce the need for labor-consuming manual evaluations. While models based on deep learning have achieved progress in predicting mean opinion scores (MOS) to assess synthetic speech, the neglect of fundamental auditory perception mechanisms limits consistency with human judgments. To address this issue, we propose an auditory perception guided-MOS prediction model (APG-MOS) that synergistically integrates auditory modeling with semantic analysis to enhance consistency with human judgments. Specifically, we first design a perceptual module, grounded in biological auditory mechanisms, to simulate cochlear functions, which encodes acoustic signals into biologically aligned electrochemical representations. Secondly, we propose a residual vector quantization (RVQ)-based semantic distortion modeling method to quantify the degradation of speech quality at the semantic level. Finally, we design a residual cross-attention architecture, coupled with a progressive learning strategy, to enable multimodal fusion of encoded electrochemical signals and semantic representations. Experiments demonstrate that APG-MOS achieves superior performance on two primary benchmarks. Our code and checkpoint will be available on a public repository upon publication.
- Abstract(参考訳): 自動音声品質評価は、人による音声の主観的知覚を計算モデルにより定量化し、労働力による手作業による評価の必要性を低減することを目的とする。
深層学習に基づくモデルは、合成音声を評価するための平均世論スコア(MOS)の予測に進歩しているが、基本的な聴覚知覚機構の無視は人間の判断との整合性を制限している。
この問題に対処するために,聴覚モデルと意味分析を相乗的に統合し,人間の判断との整合性を高める聴覚知覚誘導型MOS予測モデル(APG-MOS)を提案する。
具体的には、まず生体聴覚機構を基盤とした知覚モジュールを設計し、音波信号を生物学的に整列した電気化学表現に符号化するコクラー関数をシミュレートする。
次に,残差ベクトル量子化(RVQ)に基づく意味的歪みモデリング手法を提案する。
最後に、符号化された電気化学信号と意味表現のマルチモーダル融合を可能にするために、進化的学習戦略と組み合わさった残差クロスアテンションアーキテクチャを設計する。
実験により、APG-MOSは2つの主要なベンチマークで優れた性能を発揮することが示された。
私たちのコードとチェックポイントは公開時にパブリックリポジトリで公開されます。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling [16.43844160498413]
最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
論文 参考訳(メタデータ) (2020-08-09T11:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。