論文の概要: SITA: Learning Speaker-Invariant and Tone-Aware Speech Representations for Low-Resource Tonal Languages
- arxiv url: http://arxiv.org/abs/2601.09050v1
- Date: Wed, 14 Jan 2026 00:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.209687
- Title: SITA: Learning Speaker-Invariant and Tone-Aware Speech Representations for Low-Resource Tonal Languages
- Title(参考訳): SITA:低音源音節言語のための話者不変およびトーン対応音声表現の学習
- Authors: Tianyi Xu, Xuan Ouyang, Binwei Yao, Shoua Xiong, Sara Misurelli, Maichou Lor, Junjie Hu,
- Abstract要約: SITAは、事前訓練されたwav2vecスタイルのエンコーダに対して、話者不変性とトーン認識を強制する軽量な適応レシピである。
音色を効果的に表現できない多言語エンコーダであるHmongを主眼として評価した。
- 参考スコア(独自算出の注目度): 11.655315357810371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tonal low-resource languages are widely spoken yet remain underserved by modern speech technology. A key challenge is learning representations that are robust to nuisance variation such as gender while remaining tone-aware for different lexical meanings. To address this, we propose SITA, a lightweight adaptation recipe that enforces Speaker-Invariance and Tone-Awareness for pretrained wav2vec-style encoders. SITA uses staged multi-objective training: (i) a cross-gender contrastive objective encourages lexical consistency across speakers, while a tone-repulsive loss prevents tone collapse by explicitly separating same-word different-tone realizations; and (ii) an auxiliary Connectionist Temporal Classification (CTC)-based ASR objective with distillation stabilizes recognition-relevant structure. We evaluate primarily on Hmong, a highly tonal and severely under-resourced language where off-the-shelf multilingual encoders fail to represent tone effectively. On a curated Hmong word corpus, SITA improves cross-gender lexical retrieval accuracy, while maintaining usable ASR accuracy relative to an ASR-adapted XLS-R teacher. We further observe similar gains when transferring the same recipe to Mandarin, suggesting SITA is a general, plug-in approach for adapting multilingual speech encoders to tonal languages.
- Abstract(参考訳): 声調の低い言語は広く話されているが、現代の音声技術では守られていない。
鍵となる課題は、性別などのニュアンスの変化に頑健な表現を学習する一方で、異なる語彙的意味に留意することである。
そこで本研究では,事前学習したwav2vec型エンコーダに対して,話者不変性とトーン認識を強制する軽量な適応レシピであるSITAを提案する。
SITAは段階的多目的訓練を使用する。
(i)クロスジェンダーのコントラスト目的は話者間の語彙的一貫性を促進する一方、トーン・リパルス的損失は同単語の異音化を明示的に分離することでトーン崩壊を防ぐ。
(II) 蒸留を併用した補助接続性時間分類(CTC)に基づくASRは, 認識関連構造を安定化させる。
Hmongは,市販の多言語エンコーダが音色を効果的に表現できない言語である。
キュレートされたHmongワードコーパスでは、SITAは、ASR対応のXLS-R教師に対して使用可能なASR精度を維持しながら、クロスジェンダーの語彙検索精度を向上させる。
また,同じレシピを Mandarin に転送する場合にも,SITA は多言語音声エンコーダを音素言語に適応するための汎用的なプラグイン手法であることが示唆された。
関連論文リスト
- Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。
我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T02:56:33Z) - LASPA: Language Agnostic Speaker Disentanglement with Prefix-Tuned Cross-Attention [2.199918533021483]
アクセント、音声解剖学、言語音声構造などの声質特性の重複は、言語情報と話者情報の分離を複雑にする。
これらのコンポーネントの分離は、話者認識の精度を大幅に向上させる。
そこで本稿では,接頭辞付きクロスアテンションを通じて共同学習を統合する,新しい非絡み合い学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T10:59:31Z) - Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Learning not to Discriminate: Task Agnostic Learning for Improving
Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。
提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文 参考訳(メタデータ) (2020-06-09T13:45:30Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。