論文の概要: Multilingual Speech Evaluation: Case Studies on English, Malay and Tamil
- arxiv url: http://arxiv.org/abs/2107.03675v1
- Date: Thu, 8 Jul 2021 08:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 13:28:09.286478
- Title: Multilingual Speech Evaluation: Case Studies on English, Malay and Tamil
- Title(参考訳): 多言語音声評価:英語、マレー語、タミル語を事例として
- Authors: Huayun Zhang, Ke Shi, Nancy F. Chen
- Abstract要約: 本研究では,英語(強勢時),マレー語(音節時),タミル語(モーラ時)の3つの異なるリズムパターンを持つ言語について検討する。
我々は,音楽処理とベクトル表現学習に触発されたロバストな特徴表現を利用する。
経験的検証は、発音、リズム、イントネーションのパフォーマンスを予測するときに、3つの言語すべてに対して一貫した利得を示す。
- 参考スコア(独自算出の注目度): 21.097181754002637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech evaluation is an essential component in computer-assisted language
learning (CALL). While speech evaluation on English has been popular, automatic
speech scoring on low resource languages remains challenging. Work in this area
has focused on monolingual specific designs and handcrafted features stemming
from resource-rich languages like English. Such approaches are often difficult
to generalize to other languages, especially if we also want to consider
suprasegmental qualities such as rhythm. In this work, we examine three
different languages that possess distinct rhythm patterns: English
(stress-timed), Malay (syllable-timed), and Tamil (mora-timed). We exploit
robust feature representations inspired by music processing and vector
representation learning. Empirical validations show consistent gains for all
three languages when predicting pronunciation, rhythm and intonation
performance.
- Abstract(参考訳): 音声評価はコンピュータ支援言語学習(CALL)において不可欠な要素である。
英語での音声評価は人気があるが、低資源言語での音声自動スコアリングは依然として困難である。
この分野での仕事は、英語のような資源に富む言語から派生したモノリンガル特有のデザインと手作りの特徴に焦点を当てている。
このようなアプローチは、特にリズムのような過渡的な性質についても検討したい場合、他の言語に一般化することはしばしば困難である。
本研究では、英語(強勢時)、マレー語(音節時)、タミル語(モーラ時)の3つの異なるリズムパターンを持つ言語について検討する。
音楽処理とベクトル表現学習に触発されたロバストな特徴表現を利用する。
経験的検証は、発音、リズム、イントネーションのパフォーマンスを予測するときに、3つの言語すべてに対して一貫した利得を示す。
関連論文リスト
- The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - Improve Bilingual TTS Using Dynamic Language and Phonology Embedding [10.244215079409797]
本稿では,中国語の単言語話者からより標準の英語音声を取得するために,マンダリン・イングリッシュ・TSシステムを構築した。
言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。
論文 参考訳(メタデータ) (2022-12-07T03:46:18Z) - Multilingual BERT has an accent: Evaluating English influences on
fluency in multilingual models [23.62852626011989]
我々は,高次情報源言語における文法構造が低次情報源言語に肥大化したことを示す。
このバイアスは、多言語モデルの流布度とモノリンガルのスペイン語とギリシア語のモデルの流布度を比較する新しい方法によって示される。
論文 参考訳(メタデータ) (2022-10-11T17:06:38Z) - Multilingual analysis of intelligibility classification using English,
Korean, and Tamil dysarthric speech datasets [4.486141167325431]
本稿では,異なる韻律システムを持つ3言語(英語,韓国語,タミル語)の変形音声データセットを解析する。
音声品質,発音,韻律の3次元を反映した39の音響測定を行った。
論文 参考訳(メタデータ) (2022-09-27T09:00:41Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。