論文の概要: Study of Indian English Pronunciation Variabilities relative to Received
Pronunciation
- arxiv url: http://arxiv.org/abs/2204.06502v1
- Date: Wed, 13 Apr 2022 16:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 14:56:58.573244
- Title: Study of Indian English Pronunciation Variabilities relative to Received
Pronunciation
- Title(参考訳): インド英語の発音変化の受信語に対する検討
- Authors: Priyanshi Pal, Shelly Jain, Anil Vuppala, Chiranjeevi Yarra, Prasanta
Ghosh
- Abstract要約: IndicTIMITはIE品種の多様性に富み、栄養バランスの取れた方法で培養されている。
本稿では,データ駆動方式による未探索規則の報告とともに,IEの音声規則を検証する手法を提案する。
- 参考スコア(独自算出の注目度): 5.3956335232250385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contrast to British or American English, labeled pronunciation data on the
phonetic level is scarce for Indian English (IE). This has made it challenging
to study pronunciations of Indian English. Moreover, IE has many varieties,
resulting from various native language influences on L2 English. Indian English
has been studied in the past, by a few linguistic works. They report phonetic
rules for such characterisation, however, the extent to which they can be
applied to a diverse large-scale Indian pronunciation data remains
under-examined. We consider a corpus, IndicTIMIT, which is rich in the
diversity of IE varieties and is curated in a nativity balanced manner. It
contains data from 80 speakers corresponding to various regions of India. We
present an approach to validate the phonetic rules of IE along with reporting
unexplored rules derived using a data-driven manner, on this corpus. We also
provide quantitative information regarding which rules are more prominently
observed than the others, attributing to their relevance in IE accordingly.
- Abstract(参考訳): イギリス英語やアメリカ英語とは対照的に、音素レベルでの発音データはインド英語(IE)では少ない。
これによりインド英語の発音を学ぶのが難しくなった。
さらにieには多くの種類があり、l2英語に様々なネイティブ言語の影響がある。
インド英語は過去にいくつかの言語研究によって研究されてきた。
このような特徴付けのための音韻規則は報告されているが、インドの多様な発音データに適用できる範囲は未検討のままである。
我々はie多様体の多様性に富み、出生率バランスの取れた方法でキュレートされたコーパスであるindictimitを考える。
インドの様々な地域に対応する80人の話者のデータを含んでいる。
本稿では,ie の音声規則を検証し,このコーパス上でデータ駆動方式で導出した未探索の規則を報告する手法を提案する。
また,どのルールが他のルールよりも顕著に観察されているかという定量的情報も提供し,それに伴うIEの関連性に寄与する。
関連論文リスト
- LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Towards Better Inclusivity: A Diverse Tweet Corpus of English Varieties [0.0]
私たちは、その根本にあるバイアス(データそのもの)の問題に対処することを目指しています。
英語の多言語話者の割合が低い国からのツイートのデータセットをキュレートする。
ベストプラクティスに従って、我々の成長するコーパスには7カ国から170,800のツイートが写っている。
論文 参考訳(メタデータ) (2024-01-21T13:18:20Z) - Mukhyansh: A Headline Generation Dataset for Indic Languages [4.583536403673757]
Mukhyanshは、インド語の見出し生成に適した、広範囲にわたる多言語データセットである。
ムハーンシュ語は3億3900万以上の記事の見出しから成り、8つの著名なインドの言語にまたがっている。
Mukhyanshは、他のすべてのモデルより優れており、平均ROUGE-Lスコアは8言語すべてで31.43である。
論文 参考訳(メタデータ) (2023-11-29T15:49:24Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Deep Dive into the Disparity of Word Error Rates Across Thousands of
NPTEL MOOC Videos [4.809236881780707]
英語のSsim9.8$Kの技術講義とインド・デモグラフィーの様々な部分を表すインストラクターによる書き起こしからなる8740時間の大規模音声データセットのキュレーションについて述べる。
私たちは、キュレートされたデータセットを使用して、インドの多様な話者の人口統計学的特徴にまたがる、YouTube Automatic CaptionsとOpenAI Whisperモデルのパフォーマンスの既存の格差を測定します。
論文 参考訳(メタデータ) (2023-07-20T05:03:00Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - An Investigation of Indian Native Language Phonemic Influences on L2
English Pronunciations [5.3956335232250385]
インドのL2英語話者の増加は、アクセントとL1-L2相互作用を研究する必要がある。
インド英語話者(IE)のアクセントを調査し、我々の観察を詳細に報告する。
既存の文献研究と80人の話者の音声で注釈付けされた発話から得られたIE発音とネイティブ言語の発音を比較して,インド語18言語がIEに与える影響を実証した。
論文 参考訳(メタデータ) (2022-12-19T07:41:39Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。