論文の概要: MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora
- arxiv url: http://arxiv.org/abs/2604.11552v1
- Date: Mon, 13 Apr 2026 14:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.617821
- Title: MimicLM: Zero-Shot Voice Imitation through Autoregressive Modeling of Pseudo-Parallel Speech Corpora
- Title(参考訳): MimicLM: Pseudo-Parallel音声コーパスの自己回帰モデリングによるゼロショット音声模倣
- Authors: Tao Feng, Yuxiang Wang, Yuancheng Wang, Xueyao Zhang, Dekun Chen, Chaoren Wang, Xun Guan, Zhizheng Wu,
- Abstract要約: 本研究では, 音声合成を訓練源として用い, 実際の録音を目標として保持することで, 新たなアプローチを採るMimicLMを提案する。
実験により、MimicLMはシンプルで効果的なアーキテクチャで優れた音声模倣品質を実現することが示された。
- 参考スコア(独自算出の注目度): 24.886364035559907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice imitation aims to transform source speech to match a reference speaker's timbre and speaking style while preserving linguistic content. A straightforward approach is to train on triplets of (source, reference, target), where source and target share the same content but target matches the reference's voice characteristics, yet such data is extremely scarce. Existing approaches either employ carefully designed disentanglement architectures to bypass this data scarcity or leverage external systems to synthesize pseudo-parallel training data. However, the former requires intricate model design, and the latter faces a quality ceiling when synthetic speech is used as training targets. To address these limitations, we propose MimicLM, which takes a novel approach by using synthetic speech as training sources while retaining real recordings as targets. This design enables the model to learn directly from real speech distributions, breaking the synthetic quality ceiling. Building on this data construction approach, we incorporate interleaved text-audio modeling to guide the generation of content-accurate speech and apply post-training with preference alignment to mitigate the inherent distributional mismatch when training on synthetic data. Experiments demonstrate that MimicLM achieves superior voice imitation quality with a simple yet effective architecture, significantly outperforming existing methods in naturalness while maintaining competitive similarity scores across speaker identity, accent, and emotion dimensions.
- Abstract(参考訳): 音声の模倣は、話者の音色と話し方とを一致させるために、言語的内容を保持しながらソース音声を変換することを目的としている。
直接的なアプローチは、ソースとターゲットが同じコンテンツを共有するが、ターゲットは参照の音声特性と一致しているが、そのようなデータは極めて少ない、という三つ組(ソース、リファレンス、ターゲット)のトレーニングである。
既存のアプローチでは、このデータ不足を回避し、あるいは外部システムを活用して擬似並列トレーニングデータを合成するために、慎重に設計されたアンタングルメントアーキテクチャを採用している。
しかし、前者は複雑なモデル設計が必要であり、後者は、合成音声を訓練対象として使用する場合、品質の高い天井に直面している。
これらの制約に対処するために,実録音を目標として保持しながら,合成音声を訓練源として使用することで,新たなアプローチをとるMimicLMを提案する。
この設計により、モデルは実際の音声分布から直接学習することができ、合成品質の天井を破ることができる。
このデータ構築手法に基づき,テキスト・オーディオ・モデリングを用いてコンテンツ・正確な音声生成を誘導し,好みのアライメントを施した後学習を適用し,合成データを用いた学習において固有の分布ミスマッチを緩和する。
実験により、MimicLMは、シンプルで効果的なアーキテクチャで優れた音声模倣品質を達成し、スピーカーアイデンティティ、アクセント、感情次元の競合的類似度スコアを維持しながら、自然性における既存の手法を著しく上回っていることが示された。
関連論文リスト
- Optimizing Speech Language Models for Acoustic Consistency [2.5864269455844484]
我々は、0.7B音声のみのモデル、1.0B音声のみのモデル、1.0Bテキストと音声の両方のインターリーブモデルという3つのモデルを訓練する。
提案手法は,音声トークンを自己教師機能付きで初期化し,光アライメントロスを施し,薄型化と補助的目的を有する列車に適用する。
論文 参考訳(メタデータ) (2025-09-30T13:59:52Z) - TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。