論文の概要: Vedavani: A Benchmark Corpus for ASR on Vedic Sanskrit Poetry
- arxiv url: http://arxiv.org/abs/2506.00145v1
- Date: Fri, 30 May 2025 18:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.393016
- Title: Vedavani: A Benchmark Corpus for ASR on Vedic Sanskrit Poetry
- Title(参考訳): Vedavani: ベディドサンスクリット詩に関するASRのベンチマークコーパス
- Authors: Sujeet Kumar, Pretam Ray, Abhinay Beerukuri, Shrey Kamoji, Manoj Balaji Jagadeeshan, Pawan Goyal,
- Abstract要約: 我々は,Rig VedaとAtharva Vedaの3,779個のラベル付きオーディオサンプルからなる,54時間のサンスクリットASRデータセットを提示する。
このデータセットは、言語を定義する正確な韻律的特徴とリズム的特徴をキャプチャする。
また、様々な最先端の多言語音声モデルにデータセットをベンチマークする。
- 参考スコア(独自算出の注目度): 6.415545341980497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sanskrit, an ancient language with a rich linguistic heritage, presents unique challenges for automatic speech recognition (ASR) due to its phonemic complexity and the phonetic transformations that occur at word junctures, similar to the connected speech found in natural conversations. Due to these complexities, there has been limited exploration of ASR in Sanskrit, particularly in the context of its poetic verses, which are characterized by intricate prosodic and rhythmic patterns. This gap in research raises the question: How can we develop an effective ASR system for Sanskrit, particularly one that captures the nuanced features of its poetic form? In this study, we introduce Vedavani, the first comprehensive ASR study focused on Sanskrit Vedic poetry. We present a 54-hour Sanskrit ASR dataset, consisting of 30,779 labelled audio samples from the Rig Veda and Atharva Veda. This dataset captures the precise prosodic and rhythmic features that define the language. We also benchmark the dataset on various state-of-the-art multilingual speech models.$^{1}$ Experimentation revealed that IndicWhisper performed the best among the SOTA models.
- Abstract(参考訳): サンスクリット(Sanskrit)は、豊富な言語遺産を持つ古代の言語であり、音声の複雑さと、自然な会話で見られる接続された音声と同様の、単語の発声時に発生する音声変換によって、自動音声認識(ASR)の独特な課題を提示する。
これらの複雑さのため、サンスクリットでは、特に詩詩の文脈において、複雑な韻律とリズムのパターンを特徴とするASRの探索が限られている。
この研究のギャップは、サンスクリットの効果的なASRシステム、特にその詩形の特徴を捉えたシステムをどのように開発できるかという疑問を提起する。
本研究では,サンスクリット・ヴェーダ詩に焦点を当てた初の総合的なASR研究であるVedavaniを紹介する。
我々は,Rig VedaとAtharva Vedaの3,779個のラベル付きオーディオサンプルからなる,54時間のサンスクリットASRデータセットを提示する。
このデータセットは、言語を定義する正確な韻律的特徴とリズム的特徴をキャプチャする。
また、様々な最先端の多言語音声モデルにデータセットをベンチマークする。
実験の結果、IndicWhisperはSOTAモデルの中で最高のパフォーマンスを示した。
関連論文リスト
- Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。
予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。
音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文 参考訳(メタデータ) (2025-03-08T16:40:13Z) - LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems [16.143694951047024]
LAHAJAというベンチマークを作成し、様々なトピックやユースケースに関する読み書き音声を含む。
LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。
異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングしたモデルが、既存のモデルよりもかなりのマージンで優れていることを確認する。
論文 参考訳(メタデータ) (2024-08-21T08:51:00Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT [45.729377551100676]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Aesthetics of Sanskrit Poetry from the Perspective of Computational
Linguistics: A Case Study Analysis on Siksastaka [11.950202012146498]
本稿では,サンスクリット詩と計算言語学の交わりについて考察する。
本研究では,サンスクリット詩の質と特徴を分析し,分類するための解釈可能なフレームワークのロードマップを提案する。
我々は6つの著名なカヴィアシャストラの流派の観点から、サンスクリットの詩であるシカサタカを深く分析する。
論文 参考訳(メタデータ) (2023-08-14T11:26:25Z) - Svarah: Evaluating English ASR Systems on Indian Accents [12.197514367387692]
Svarahは、インド全65カ所の117人の話者から9.6時間の英語音声が書き起こされたベンチマークです。
スバラ語は、読み上げ音声と自発的会話データの両方を含み、歴史、文化、観光など様々な領域をカバーし、多様な語彙を保証する。
我々は,Svarah上での6つのオープンソースASRモデルと2つの商用ASRシステムを評価し,インドアクセントを改善するための明確な範囲があることを示した。
論文 参考訳(メタデータ) (2023-05-25T06:20:29Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Automatic Speech Recognition in Sanskrit: A New Speech Corpus and
Modelling Insights [25.666767669695044]
サンスクリット語で表現される言語的特徴を忠実に捉えた78時間のASRデータセットをリリースする。
単語中の1つの母音から次の母音への文字列をキャプチャする,音節レベルの単位選択にインスパイアされた新しいモデリング単位を提案する。
我々はこれらの知見をサンスクリットASRから拡張し、他の2つのIndic言語であるGujaratiとTeluguでASRシステムを構築する。
論文 参考訳(メタデータ) (2021-06-02T18:06:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。