論文の概要: MSR-HuBERT: Self-supervised Pre-training for Adaptation to Multiple Sampling Rates
- arxiv url: http://arxiv.org/abs/2603.23048v1
- Date: Tue, 24 Mar 2026 10:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.434664
- Title: MSR-HuBERT: Self-supervised Pre-training for Adaptation to Multiple Sampling Rates
- Title(参考訳): MSR-HuBERT:複数サンプリングレート適応のための自己教師型事前学習
- Authors: Zikang Huang, Meng Ge, Tianrui Wang, Xuanchen Li, Xiaobao Wang, Longbiao Wang, Jianwu Dang,
- Abstract要約: MSRHuBERTはマルチサンプリングレート適応型事前学習法である。
異なるサンプリングレートからの生波形を、再サンプリングせずに共有時間分解能にマッピングする。
16kHzから48kHzに及ぶ実験において、MSRHuBERTはHuBERTよりも音声認識と全帯域音声再構成に優れていた。
- 参考スコア(独自算出の注目度): 54.185472273408266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has advanced speech processing. However, existing speech SSL methods typically assume a single sampling rate and struggle with mixed-rate data due to temporal resolution mismatch. To address this limitation, we propose MSRHuBERT, a multi-sampling-rate adaptive pre-training method. Building on HuBERT, we replace its single-rate downsampling CNN with a multi-sampling-rate adaptive downsampling CNN that maps raw waveforms from different sampling rates to a shared temporal resolution without resampling. This design enables unified mixed-rate pre-training and fine-tuning. In experiments spanning 16 to 48 kHz, MSRHuBERT outperforms HuBERT on speech recognition and full-band speech reconstruction, preserving high-frequency detail while modeling low-frequency semantic structure. Moreover, MSRHuBERT retains HuBERT's mask-prediction objective and Transformer encoder, so existing analyses and improvements that were developed for HuBERT can apply directly.
- Abstract(参考訳): 自己教師付き学習(SSL)には高度な音声処理がある。
しかし、既存の音声SSL方式では、時間分解ミスマッチによるサンプリングレートが単一であり、混合レートデータと競合することが多い。
この制限に対処するため,マルチサンプリングレート適応型事前学習法であるMSRHuBERTを提案する。
HuBERT上に構築した単一レートダウンサンプリングCNNを,異なるサンプリングレートからの生波形を再サンプリングなしで共有時間分解能にマッピングするマルチサンプリングレート適応ダウンサンプリングCNNに置き換える。
この設計により、混合レート事前訓練と微調整が可能である。
16kHzから48kHzに及ぶ実験において、MSRHuBERTは、低周波意味構造をモデル化しながら高周波の詳細を保存し、音声認識と全帯域音声再構成において、HumberTより優れていた。
さらに、MSRHuBERTはHuBERTのマスク予測目標とTransformerエンコーダを保持しており、HuBERT用に開発された既存の分析と改善を直接適用することができる。
関連論文リスト
- SA-SSL-MOS: Self-supervised Learning MOS Prediction with Spectral Augmentation for Generalized Multi-Rate Speech Assessment [12.343358196209167]
並列ブランチアーキテクチャを用いて,48kHzのサンプリングレートの高周波特徴を組み込んだ分光器拡張型SSL法を提案する。
実験結果から、SSL機能によって見落とされた高周波情報を活用することは、正確なマルチレートSQAにとって重要であることが示された。
論文 参考訳(メタデータ) (2026-02-16T14:33:56Z) - FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition [11.243855639847514]
我々は、モデルが推論を動的に停止することを可能にするASRの早期終了スキーム、すなわちHuBERT-EEを導入する。
LibriSpeechの実験結果によると、HuBERT-EEは性能とレイテンシのトレードオフを同時にバランスしながら、HuBERTの推論を加速できる。
論文 参考訳(メタデータ) (2022-04-13T12:11:44Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - MSR-NV: Neural Vocoder Using Multiple Sampling Rates [4.030676736893601]
単一ニューラルボコーダ(NV)における多重サンプリングレートの処理法を提案する。
低サンプリングレートから始まる波形を段階的に生成することにより、MSR-NVは各周波数帯域の特性を効率的に学習し、複数のサンプリングレートで高品質な音声を合成することができる。
論文 参考訳(メタデータ) (2021-09-28T13:31:20Z) - Latent Template Induction with Gumbel-CRFs [107.17408593510372]
文生成のための潜在テンプレートを推論するための構造化変分オートエンコーダについて検討する。
構造化推論ネットワークとして、トレーニング中に解釈可能なテンプレートを学習することを示す。
論文 参考訳(メタデータ) (2020-11-29T01:00:57Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。