論文の概要: Residual Tokens Enhance Masked Autoencoders for Speech Modeling
- arxiv url: http://arxiv.org/abs/2601.19399v1
- Date: Tue, 27 Jan 2026 09:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.270562
- Title: Residual Tokens Enhance Masked Autoencoders for Speech Modeling
- Title(参考訳): 音声モデリングのための残留トークンエンハンスマスク付きオートエンコーダ
- Authors: Samir Sadok, Stéphane Lathuilière, Xavier Alameda-Pineda,
- Abstract要約: RT-MAEはマスク付きオートエンコーダフレームワークで、教師付き属性に基づくモデリングを教師なし残差トレーニング可能なトークンで強化する。
RT-MAEは, 表現性を高めつつ, 再現性の向上, コンテンツ保存, 話者類似性の向上を図っている。
- 参考スコア(独自算出の注目度): 31.12667739896418
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent speech modeling relies on explicit attributes such as pitch, content, and speaker identity, but these alone cannot capture the full richness of natural speech. We introduce RT-MAE, a novel masked autoencoder framework that augments the supervised attributes-based modeling with unsupervised residual trainable tokens, designed to encode the information not explained by explicit labeled factors (e.g., timbre variations, noise, emotion etc). Experiments show that RT-MAE improves reconstruction quality, preserving content and speaker similarity while enhancing expressivity. We further demonstrate its applicability to speech enhancement, removing noise at inference while maintaining controllability and naturalness.
- Abstract(参考訳): 最近の音声モデリングは、ピッチ、内容、話者識別などの明示的な属性に依存しているが、これらだけでは自然な音声の完全な豊かさを捉えることはできない。
RT-MAEは,明示的なラベル付き因子(例えば,音色変化,騒音,感情など)で説明されていない情報を符号化するために,教師付き属性ベースのモデリングを非教師付きトレーニング可能なトークンで強化する,新しいマスク付きオートエンコーダフレームワークである。
RT-MAEは, 表現性を高めつつ, 再現性の向上, コンテンツ保存, 話者類似性の向上を図っている。
さらに、制御性と自然性を維持しながら、音声強調、推論時のノイズ除去に適用可能であることを示す。
関連論文リスト
- Autoregressive Speech Enhancement via Acoustic Tokens [12.77742493025067]
音声強調のための音響トークンの性能について検討し,新しいトランスデューサに基づく自己回帰アーキテクチャを提案する。
VoiceBankとLibri1データセットの実験では、話者識別の保存の観点から、音響トークンがセマンティックトークンより優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-17T06:32:22Z) - A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Joint Semantic Knowledge Distillation and Masked Acoustic Modeling for Full-band Speech Restoration with Improved Intelligibility [15.463932957443973]
音声の復元は、様々な歪みのセットを考慮して、高品質で知性の高い全帯域音声を復元することを目的としている。
MaskSRは、最近提案されたこのタスクのための生成モデルである。
提案モデルであるMaskSR2は,同一のMaskSRモデルキャパシティと推定時間を用いて,単語の誤り率を大幅に低減することを示した。
論文 参考訳(メタデータ) (2024-09-14T08:09:55Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Content-Context Factorized Representations for Automated Speech
Recognition [12.618527387900079]
本稿では、教師なしのエンコーダに依存しない音声エンコーダ表現を明示的なコンテンツエンコーダ表現と刺激的なコンテキストエンコーダ表現に分解する手法を提案する。
我々は,標準的なASRベンチマークの性能向上に加えて,実環境と人工ノイズの両方のASRシナリオの性能向上を実証した。
論文 参考訳(メタデータ) (2022-05-19T21:34:40Z) - Fine-grained Noise Control for Multispeaker Speech Synthesis [3.449700218265025]
テキスト音声モデル(TTS)は、典型的には、内容、話者、韻律などの音声属性を非絡み合い表現に分解する。
近年の課題は, 音響条件を的確にモデル化することであり, 主要な音声要因を解消することである。
論文 参考訳(メタデータ) (2022-04-11T13:13:55Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。