論文の概要: SA-SSL-MOS: Self-supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment
- arxiv url: http://arxiv.org/abs/2602.14785v1
- Date: Mon, 16 Feb 2026 14:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.467456
- Title: SA-SSL-MOS: Self-supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment
- Title(参考訳): SA-SSL-MOS: 一般化マルチレート音声アセスメントのためのスペクトル拡張を用いた自己教師型学習MOS予測
- Authors: Fengyuan Cao, Xinyu Liang, Fredrik Cumlin, Victor Ungureanu, Chandan K. A. Reddy, Christian Schuldt, Saikat Chatterjee,
- Abstract要約: 並列ブランチアーキテクチャを用いて,48kHzのサンプリングレートの高周波特徴を組み込んだ分光器拡張型SSL法を提案する。
実験結果から、SSL機能によって見落とされた高周波情報を活用することは、正確なマルチレートSQAにとって重要であることが示された。
- 参考スコア(独自算出の注目度): 12.343358196209167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing a speech quality assessment (SQA) system for estimating mean-opinion-score (MOS) of multi-rate speech with varying sampling frequency (16-48 kHz) is a challenging task. The challenge arises due to the limited availability of a MOS-labeled training dataset comprising multi-rate speech samples. While self-supervised learning (SSL) models have been widely adopted in SQA to boost performance, a key limitation is that they are pretrained on 16 kHz speech and therefore discard high-frequency information present in higher sampling rates. To address this issue, we propose a spectrogram-augmented SSL method that incorporates high-frequency features (up to 48 kHz sampling rate) through a parallel-branch architecture. We further introduce a two-step training scheme: the model is first pre-trained on a large 48 kHz dataset and then fine-tuned on a smaller multi-rate dataset. Experimental results show that leveraging high-frequency information overlooked by SSL features is crucial for accurate multi-rate SQA, and that the proposed two-step training substantially improves generalization when multi-rate data is limited.
- Abstract(参考訳): サンプリング周波数(16-48kHz)の異なるマルチレート音声の平均オピニオンスコア(MOS)を推定するための音声品質評価(SQA)システムの設計が課題である。
この課題は、マルチレート音声サンプルからなるMOSラベルのトレーニングデータセットが限られていることから生じる。
自己教師付き学習(SSL)モデルは、性能を高めるためにSQAで広く採用されているが、鍵となる制限は、16kHzの音声で事前訓練されているため、サンプリングレートの高い高周波情報を捨てることである。
この問題に対処するため,パラレルブランチアーキテクチャによる高周波数特徴(最大48kHzサンプリングレート)を組み込んだスペクトログラム拡張SSL方式を提案する。
モデルは、まず48kHzの大規模なデータセットで事前訓練され、次により小さなマルチレートデータセットで微調整される。
実験結果から、SSL機能によって見落とされた高周波情報を活用することは、正確なマルチレートSQAには不可欠であり、提案した2段階のトレーニングは、マルチレートデータに制限のある場合の一般化を大幅に改善することが示された。
関連論文リスト
- JSQA: Speech Quality Assessment with Perceptually-Inspired Contrastive Pretraining Based on JND Audio Pairs [0.0]
音声品質評価(SQA)は、高次元入力空間から知覚音声品質の平均評価スコア(MOS)を表すスカラーへのマッピングを学ぶためにしばしば用いられる。
本稿では,JSQAを提案する。JSQAは,音声エンコーダを知覚誘導型コントラスト学習を用いて,ただの目立った差分(JND)ペアで事前訓練し,MOS予測のための微調整を行う。
実験結果から, 知覚にインスパイアされたコントラスト事前学習は, 事前学習をせずに, ゼロからトレーニングした同一ネットワークと比較した場合, 種々の指標により評価されたモデル性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-07-15T18:16:46Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文 参考訳(メタデータ) (2022-11-09T20:00:21Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。