論文の概要: APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech
- arxiv url: http://arxiv.org/abs/2504.20447v1
- Date: Tue, 29 Apr 2025 05:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.767997
- Title: APG-MOS: Auditory Perception Guided-MOS Predictor for Synthetic Speech
- Title(参考訳): APG-MOS:合成音声のための聴覚知覚誘導型MOS予測器
- Authors: Zhicheng Lian, Lizhi Wang, Hua Huang,
- Abstract要約: 音声品質評価は、音声の主観的人間の知覚を定量化することを目的としている。
聴覚知覚誘導型MOS予測モデル(APG-MOS)を提案する。
APG-MOSは、人間の判断との整合性を高めるために、聴覚モデリングと意味分析を統合している。
- 参考スコア(独自算出の注目度): 20.311467577180274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech quality assessment aims to quantify subjective human perception of speech through computational models to reduce the need for labor-consuming manual evaluations. While models based on deep learning have achieved progress in predicting mean opinion scores (MOS) to assess synthetic speech, the neglect of fundamental auditory perception mechanisms limits consistency with human judgments. To address this issue, we propose an auditory perception guided-MOS prediction model (APG-MOS) that synergistically integrates auditory modeling with semantic analysis to enhance consistency with human judgments. Specifically, we first design a perceptual module, grounded in biological auditory mechanisms, to simulate cochlear functions, which encodes acoustic signals into biologically aligned electrochemical representations. Secondly, we propose a residual vector quantization (RVQ)-based semantic distortion modeling method to quantify the degradation of speech quality at the semantic level. Finally, we design a residual cross-attention architecture, coupled with a progressive learning strategy, to enable multimodal fusion of encoded electrochemical signals and semantic representations. Experiments demonstrate that APG-MOS achieves superior performance on two primary benchmarks. Our code and checkpoint will be available on a public repository upon publication.
- Abstract(参考訳): 自動音声品質評価は、人による音声の主観的知覚を計算モデルにより定量化し、労働力による手作業による評価の必要性を低減することを目的とする。
深層学習に基づくモデルは、合成音声を評価するための平均世論スコア(MOS)の予測に進歩しているが、基本的な聴覚知覚機構の無視は人間の判断との整合性を制限している。
この問題に対処するために,聴覚モデルと意味分析を相乗的に統合し,人間の判断との整合性を高める聴覚知覚誘導型MOS予測モデル(APG-MOS)を提案する。
具体的には、まず生体聴覚機構を基盤とした知覚モジュールを設計し、音波信号を生物学的に整列した電気化学表現に符号化するコクラー関数をシミュレートする。
次に,残差ベクトル量子化(RVQ)に基づく意味的歪みモデリング手法を提案する。
最後に、符号化された電気化学信号と意味表現のマルチモーダル融合を可能にするために、進化的学習戦略と組み合わさった残差クロスアテンションアーキテクチャを設計する。
実験により、APG-MOSは2つの主要なベンチマークで優れた性能を発揮することが示された。
私たちのコードとチェックポイントは公開時にパブリックリポジトリで公開されます。
関連論文リスト
- E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - SpeechQualityLLM: LLM-Based Multimodal Assessment of Speech Quality [2.1178416840822027]
音声品質評価は電話、VoIP、ストリーミングシステムの中心であり、大量の劣化したオーディオを大規模に監視し、最適化する必要がある。
本稿では,音声エンコーダを言語モデルに結合し,テンプレートベースの質問応答ペアを用いてNISQAコーパスで学習するマルチモーダル音声品質質問応答システムであるSpeechQualityLLMを紹介する。
本システムでは,数値予測を解析し,標準回帰とランキングの指標を用いて評価するテキスト回答を生成する。
論文 参考訳(メタデータ) (2025-12-09T04:39:50Z) - Measuring the Unspoken: A Disentanglement Model and Benchmark for Psychological Analysis in the Wild [19.78493693965451]
Multilevel Insight Network for Disentanglement (MIND) は、新しい階層型ビジュアルエンコーダである。
ConvoInsight-DBは、マイクロ表現と深い心理的推論のための専門家アノテーションを備えた、新しい大規模データセットである。
PRISMベンチマークでは、MINDは全てのベースラインを著しく上回り、SOTA以前のマイクロ圧縮検出で+86.95%向上した。
論文 参考訳(メタデータ) (2025-12-04T12:13:18Z) - From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling [66.22134521383909]
我々は、多様なMOSデータセットを優先順位比較設定に再構成する統一ベンチマークを導入する。
MOS-RMBenchを基盤として,報酬モデルのための3つのパラダイムを体系的に構築・評価する。
実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。
実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-01T10:27:51Z) - SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - Automated scientific minimization of regret [7.633645883658148]
後悔の科学的最小化(ASMR)について紹介する。
ASMRは自動計算認知科学のためのフレームワークである。
その結果,ASMRは音環境下での人間の行動を予測する認知モデルを発見し,解釈可能性を維持した。
論文 参考訳(メタデータ) (2025-05-23T09:26:43Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling [16.43844160498413]
最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
論文 参考訳(メタデータ) (2020-08-09T11:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。