論文の概要: Towards Comprehensive Semantic Speech Embeddings for Chinese Dialects
- arxiv url: http://arxiv.org/abs/2601.07274v1
- Date: Mon, 12 Jan 2026 07:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.263068
- Title: Towards Comprehensive Semantic Speech Embeddings for Chinese Dialects
- Title(参考訳): 中国語方言に対する包括的セマンティック音声埋め込みに向けて
- Authors: Kalvin Chang, Yiwen Shao, Jiahong Li, Dong Yu,
- Abstract要約: 中国語と中国語の方言間の相互意味的アライメントを持つ音声表現を必要とする。
ASR(Automatic Speech Recognition)のみのデータを用いた音声エンコーダの訓練により,このような言語間セマンティックアライメントを実現する。
我々のベンチマーク、意味的整合した音声表現、音声と音声の検索評価は、将来の中国語方言音声-LLMの基盤となった。
- 参考スコア(独自算出の注目度): 29.35427502578411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite having hundreds of millions of speakers, Chinese dialects lag behind Mandarin in speech and language technologies. Most varieties are primarily spoken, making dialect-to-Mandarin speech-LLMs (large language models) more practical than dialect LLMs. Building dialect-to-Mandarin speech-LLMs requires speech representations with cross-dialect semantic alignment between Chinese dialects and Mandarin. In this paper, we achieve such a cross-dialect semantic alignment by training a speech encoder with ASR (automatic speech recognition)-only data, as demonstrated by speech-to-speech retrieval on a new benchmark of spoken Chinese varieties that we contribute. Our speech encoder further demonstrates state-of-the-art ASR performance on Chinese dialects. Together, our Chinese dialect benchmark, semantically aligned speech representations, and speech-to-speech retrieval evaluation lay the groundwork for future Chinese dialect speech-LLMs. We release the benchmark at https://github.com/kalvinchang/yubao.
- Abstract(参考訳): 数億人の話者がいるにもかかわらず、中国語の方言は言語技術や言語技術においてマンダリンに遅れを取っている。
ほとんどの変種は主に話し言葉であり、方言とマンダリンの言語-LLM(大きな言語モデル)は方言のLLMよりも実用的である。
中国語と中国語の方言間の相互意味的アライメントを持つ音声表現を必要とする。
本稿では,ASR(自動音声認識)のみのデータを用いた音声エンコーダを学習し,提案する中国語品種の新たなベンチマークにおいて,音声から音声への検索で示すように,言語間セマンティックアライメントを実現する。
我々の音声エンコーダは、中国語方言における最先端のASRパフォーマンスをさらに実証する。
我々の中国語方言ベンチマーク、意味的に整合した音声表現、音声から音声までの評価は、将来の中国語方言言語LLMの基礎となった。
ベンチマークはhttps://github.com/kalvinchang/yubao.comで公開しています。
関連論文リスト
- What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation [10.73307957038715]
FMSD-TTS(FMSD-TTS)は、音声合成フレームワーク。
限られた参照音声と明示的な方言ラベルから並列方言音声を合成する。
論文 参考訳(メタデータ) (2025-05-20T13:35:55Z) - Bailing-TTS: Chinese Dialectal Speech Synthesis Towards Human-like Spontaneous Representation [3.9166923630129604]
Bailing-TTSは、高品質の中国語方言を生成できる大規模なTSモデルのファミリーである。
中国語の方言表現学習は、特定のトランスフォーマーアーキテクチャと多段階学習プロセスを用いて開発されている。
実験により、Bailing-TTSは人のような自然表現に向けて中国語の方言音声を生成することが示された。
論文 参考訳(メタデータ) (2024-08-01T04:57:31Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2023-08-31T12:53:09Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering
the Effect of Language Transfer [4.675953329876724]
本稿では,音声認識における言語伝達の音韻効果について検討する。
英単語をマンダリン音声表現に変換するための語彙規則のセットが提案されている。
提案した語彙規則は一般化され、見当たらない英語の単語に直接適用することができる。
論文 参考訳(メタデータ) (2022-10-07T14:59:44Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。