論文の概要: Dhvani: A Weakly-supervised Phonemic Error Detection and Personalized Feedback System for Hindi
- arxiv url: http://arxiv.org/abs/2506.02166v1
- Date: Mon, 02 Jun 2025 18:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.980836
- Title: Dhvani: A Weakly-supervised Phonemic Error Detection and Personalized Feedback System for Hindi
- Title(参考訳): Dhvani:ヒンディー語における弱教師付き音声誤り検出と個人化フィードバックシステム
- Authors: Arnav Rustagi, Satvik Bajpai, Nimrat Kaur, Siddharth Siddharth,
- Abstract要約: CAPT(Computer-Assisted Pronunciation Training)は、英語で広く研究されている。
15億人の話者の基盤を持つインド語への適用には、依然として重大なギャップがある。
本稿では,ヒンディー語のための新しいCAPTシステムであるDhvaniを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Assisted Pronunciation Training (CAPT) has been extensively studied for English. However, there remains a critical gap in its application to Indian languages with a base of 1.5 billion speakers. Pronunciation tools tailored to Indian languages are strikingly lacking despite the fact that millions learn them every year. With over 600 million speakers and being the fourth most-spoken language worldwide, improving Hindi pronunciation is a vital first step toward addressing this gap. This paper proposes 1) Dhvani -- a novel CAPT system for Hindi, 2) synthetic speech generation for Hindi mispronunciations, and 3) a novel methodology for providing personalized feedback to learners. While the system often interacts with learners using Devanagari graphemes, its core analysis targets phonemic distinctions, leveraging Hindi's highly phonetic orthography to analyze mispronounced speech and provide targeted feedback.
- Abstract(参考訳): CAPT(Computer-Assisted Pronunciation Training)は、英語で広く研究されている。
しかし、その言語が15億人の話者の基盤を持つインド語への適用には、依然として重大なギャップがある。
インドの言語に合わせた発音ツールは、毎年何百万人もの人が学んでいるにもかかわらず、著しく欠落している。
6億人以上の話者がいて、世界で第4位の言語であり、ヒンディー語発音を改善することは、このギャップに対処するための重要な第一歩だ。
本稿では,
1) Dhvani - ヒンディー語のための新しいCAPTシステム
2)ヒンディー語誤認識のための合成音声生成,及び
3)学習者にパーソナライズされたフィードバックを提供するための新しい方法論。
このシステムは、しばしばDevanagari graphemesを使って学習者と対話するが、その中核となる分析は、ヒンディー語の高度音韻正書法を利用して、不明瞭な音声を分析し、ターゲットのフィードバックを提供する。
関連論文リスト
- LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Low-Resource Counterspeech Generation for Indic Languages: The Case of
Bengali and Hindi [11.117463901375602]
私たちはBengaliやHindiといった低リソース言語のギャップを埋めています。
我々は5,062人の虐待的音声/音声ペアのベンチマークデータセットを作成する。
モノリンガル設定が最高のパフォーマンスをもたらすことを観察する。
論文 参考訳(メタデータ) (2024-02-11T18:09:50Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - An Investigation of Indian Native Language Phonemic Influences on L2
English Pronunciations [5.3956335232250385]
インドのL2英語話者の増加は、アクセントとL1-L2相互作用を研究する必要がある。
インド英語話者(IE)のアクセントを調査し、我々の観察を詳細に報告する。
既存の文献研究と80人の話者の音声で注釈付けされた発話から得られたIE発音とネイティブ言語の発音を比較して,インド語18言語がIEに与える影響を実証した。
論文 参考訳(メタデータ) (2022-12-19T07:41:39Z) - DDSupport: Language Learning Support System that Displays Differences
and Distances from Model Speech [16.82591185507251]
音声のスコアを計算し,初心者による誤認識を検出する新しい言語学習支援システムを提案する。
提案システムは,深層学習に基づく音声処理を用いて,学習者の音声の発音スコアと,学習者とモデルの発音群との差/距離を表示する。
論文 参考訳(メタデータ) (2022-12-08T05:49:15Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。