論文の概要: Training Articulatory Inversion Models for Interspeaker Consistency
- arxiv url: http://arxiv.org/abs/2505.20529v3
- Date: Mon, 09 Jun 2025 11:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.145996
- Title: Training Articulatory Inversion Models for Interspeaker Consistency
- Title(参考訳): 話者間整合性のための調音インバージョンモデルの訓練
- Authors: Charles McGhee, Mark J. F. Gales, Kate M. Knill,
- Abstract要約: AAIは音声から調音への逆写像をモデル化しようとする。
AAIの最近の研究は、単一話者データセットに自己監視学習(SSL)モデルを適用することを提案した。
単一話者データと複数話者データに基づいて訓練されたSSL適応モデルが、英語とロシア語の話者識別に一貫性のある音声目標を生成するかどうかを検討する。
- 参考スコア(独自算出の注目度): 34.667379055539236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acoustic-to-Articulatory Inversion (AAI) attempts to model the inverse mapping from speech to articulation. Exact articulatory prediction from speech alone may be impossible, as speakers can choose different forms of articulation seemingly without reference to their vocal tract structure. However, once a speaker has selected an articulatory form, their productions vary minimally. Recent works in AAI have proposed adapting Self-Supervised Learning (SSL) models to single-speaker datasets, claiming that these single-speaker models provide a universal articulatory template. In this paper, we investigate whether SSL-adapted models trained on single and multi-speaker data produce articulatory targets which are consistent across speaker identities for English and Russian. We do this through the use of a novel evaluation method which extracts articulatory targets using minimal pair sets. We also present a training method which can improve interspeaker consistency using only speech data.
- Abstract(参考訳): AAIは音声から調音への逆写像をモデル化しようとする。
話者は声道構造に言及することなく、異なる形態の調音を選択できるため、音声だけでは具体的な調音予測は不可能である。
しかし、一度話者が調音形式を選択すると、その生成は最小限に変化する。
AAIの最近の研究は、単一話者データセットに自己監視学習(SSL)モデルを適用することを提案しており、これらの単一話者モデルは普遍的な調音テンプレートを提供すると主張している。
本稿では、単一話者データと複数話者データに基づいて訓練されたSSL適応モデルが、英語とロシア語の話者識別に一貫性のある音声目標を生成するかどうかを検討する。
我々は,最小対集合を用いて音声目標を抽出する新しい評価手法を用いてこれを行う。
また,音声データのみを用いて話者間の一貫性を向上させる訓練手法を提案する。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。