論文の概要: Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus
- arxiv url: http://arxiv.org/abs/2312.06668v1
- Date: Wed, 6 Dec 2023 01:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:50:13.816751
- Title: Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus
- Title(参考訳): 台湾語hokkienコーパスにおける自己教師あり音声モデルの評価
- Authors: Yi-Hui Chou, Kalvin Chang, Meng-Ju Wu, Winston Ou, Alice Wen-Hsin Bi,
Carol Yang, Bryan Y. Chen, Rong-Wei Pai, Po-Yen Yeh, Jo-Peng Chiang,
Iu-Tshian Phoann, Winnie Chang, Chenxuan Cui, Noel Chen, Jiatong Shi
- Abstract要約: 台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。
音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。
- 参考スコア(独自算出の注目度): 12.780273009783102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Taiwanese Hokkien is declining in use and status due to a language shift
towards Mandarin in Taiwan. This is partly why it is a low resource language in
NLP and speech research today. To ensure that the state of the art in speech
processing does not leave Taiwanese Hokkien behind, we contribute a 1.5-hour
dataset of Taiwanese Hokkien to ML-SUPERB's hidden set. Evaluating ML-SUPERB's
suite of self-supervised learning (SSL) speech representations on our dataset,
we find that model size does not consistently determine performance. In fact,
certain smaller models outperform larger ones. Furthermore, linguistic
alignment between pretraining data and the target language plays a crucial
role.
- Abstract(参考訳): 台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。
これは、今日のNLPや音声研究において、低リソース言語である理由のひとつだ。
音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。
ML-SUPERBの自己教師付き学習(SSL)音声表現スイートをデータセット上で評価した結果,モデルサイズが常に性能を判断できないことがわかった。
実際、一部の小さなモデルはより大きなモデルよりも優れています。
さらに,事前学習データと対象言語との言語的アライメントも重要である。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
ゼロショットの言語間移動は、様々なNLPタスクで実証されている。
音声に基づくモデルが同じ伝達能力を示すかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems [4.150560582918129]
台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化したLLaMA 2-7Bモデルを事前訓練した。
限定的な単言語コーパスの使用により,台湾語のHokkien能力がさらに向上することが判明した。
論文 参考訳(メタデータ) (2024-03-18T17:56:13Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。