論文の概要: Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh
- arxiv url: http://arxiv.org/abs/2603.05272v1
- Date: Thu, 05 Mar 2026 15:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.291869
- Title: Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh
- Title(参考訳): Webに口頭:バングラデシュの「ゼロリソース」をデジタル化する
- Authors: Mohammad Mamun Or Rashid,
- Abstract要約: マルチリンガル・クラウド・コーパス(Multilingual Cloud Corpus)はバングラデシュの民族および先住民族の言語の最初の、全国規模、並列、マルチモーダルな言語データセットである。
ベンガル語刺激テキスト、英訳、IPA転写を含む85792の構造化テキストエントリと、107時間の音声録音を含む。
データはバングラデシュの9地区で90日間にわたる体系的なフィールドワークを通じて収集され、16人のデータ収集者、77人の話者、43人のバリデータを含む。
- 参考スコア(独自算出の注目度): 1.0578042460060062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Multilingual Cloud Corpus, the first national-scale, parallel, multimodal linguistic dataset of Bangladesh's ethnic and indigenous languages. Despite being home to approximately 40 minority languages spanning four language families, Bangladesh has lacked a systematic, cross-family digital corpus for these predominantly oral, computationally "zero resource" varieties, 14 of which are classified as endangered. Our corpus comprises 85792 structured textual entries, each containing a Bengali stimulus text, an English translation, and an IPA transcription, together with approximately 107 hours of transcribed audio recordings, covering 42 language varieties from the Tibeto-Burman, Indo-European, Austro-Asiatic, and Dravidian families, plus two genetically unclassified languages. The data were collected through systematic fieldwork over 90 days across nine districts of Bangladesh, involving 16 data collectors, 77 speakers, and 43 validators, following a predefined elicitation template of 2224 unique items organized at three levels of linguistic granularity: isolated lexical items (475 words across 22 semantic domains), grammatical constructions (887 sentences across 21 categories including verbal conjugation paradigms), and directed speech (862 prompts across 46 conversational scenarios). Post-field processing included IPA transcription by 10 linguists with independent adjudication by 6 reviewers. The complete dataset is publicly accessible through the Multilingual Cloud platform (multiling.cloud), providing searchable access to annotated audio and textual data for all documented varieties. We describe the corpus design, fieldwork methodology, dataset structure, and per-language coverage, and discuss implications for endangered language documentation, low-resource NLP, and digital preservation in linguistically diverse developing countries.
- Abstract(参考訳): 我々はバングラデシュの民族および先住民族の言語に関する最初の全国規模、並列、マルチモーダル言語データセットであるMultilingual Cloud Corpusを提示する。
バングラデシュには4つの言語族にまたがる約40の少数言語があるが、主に口頭で計算的に「ゼロリソース」の品種のための体系的でクロスファミリーのデジタルコーパスが欠落しており、そのうち14は絶滅危惧種に分類されている。
当コーパスは,ベンガル語刺激文,英訳,IPA転写を含む85792の構造化テキストエントリと,約107時間の転写音声記録と,チベット・ビルマン語,インド・ヨーロッパ語,オーストリア・アジア語,ドラヴィダ語族の42種類の言語を対象とし,遺伝的に未分類言語を2種類含む。
データはバングラデシュの9つの地区で90日間にわたる体系的なフィールドワークを通じて収集され、16人のデータ収集者、77人の話者、43人のバリケーターが参加し、言語的粒度の3つのレベルに整理された2224のユニークな項目(22のセマンティックドメインに475の単語)、文法的構成(言語的共役パラダイムを含む21のカテゴリに887の文)、指示的発話(46の会話シナリオに862のプロンプト)からなる事前定義された評価テンプレートに従っていた。
フィールド後処理には、言語学者10名によるIPA転写と、6人のレビュアーによる独立的偏見が含まれていた。
完全なデータセットはMultilingual Cloudプラットフォーム(multiling.cloud)を通じて公開されている。
本稿では, コーパス設計, フィールドワーク方法論, データセット構造, 言語ごとのカバレッジについて述べるとともに, 言語学的に多様な発展途上国において, 絶滅危惧言語文書, 低リソースNLP, デジタル保存の意義について論じる。
関連論文リスト
- CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.0507412649934]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。
CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文 参考訳(メタデータ) (2025-09-17T16:45:22Z) - Towards Building Large Scale Datasets and State-of-the-Art Automatic Speech Translation Systems for 14 Indian Languages [27.273651323572786]
BhasaAnuvaadは、インドの言語で最大の音声翻訳データセットで、4400万時間以上のオーディオと1700万行のテキストセグメントにまたがる。
本実験は, 翻訳品質の向上を実証し, インド語音声翻訳の新しい標準を設定した。
アクセシビリティとコラボレーションを促進するために、許容ライセンス付きのすべてのコード、データ、モデルの重みをオープンソースでリリースします。
論文 参考訳(メタデータ) (2024-11-07T13:33:34Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - IndicVoices: Towards building an Inclusive Multilingual Speech Dataset
for Indian Languages [17.862027695142825]
INDICVOICESは、145のインド地区と22の言語をカバーする16237人の話者による自然および自発的なスピーチのデータセットである。
1639時間は既に書き起こされており、言語ごとの平均的な時間は73時間である。
この作業の一部として開発されたデータ、ツール、ガイドライン、モデル、その他の材料はすべて公開されます。
論文 参考訳(メタデータ) (2024-03-04T10:42:08Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological
Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。
システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文 参考訳(メタデータ) (2020-06-20T13:24:14Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。