論文の概要: Learnings from Technological Interventions in a Low Resource Language:
Enhancing Information Access in Gondi
- arxiv url: http://arxiv.org/abs/2211.16172v1
- Date: Tue, 29 Nov 2022 13:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:47:29.899388
- Title: Learnings from Technological Interventions in a Low Resource Language:
Enhancing Information Access in Gondi
- Title(参考訳): 低資源言語における技術介入から学ぶ:ゴンディにおける情報アクセスの促進
- Authors: Devansh Mehta, Harshita Diddee, Ananya Saxena, Anurag Shukla, Sebastin
Santy, Ramaravind Kommiya Mothilal, Brij Mohan Lal Srivastava, Alok Sharma,
Vishnu Prasad, Venkanna U, Kalika Bali
- Abstract要約: 我々はヒンディー語からゴンディ語への6万通以上の翻訳コーパスを作成した。
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
- 参考スコア(独自算出の注目度): 10.096480120676878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary obstacle to developing technologies for low-resource languages is
the lack of representative, usable data. In this paper, we report the
deployment of technology-driven data collection methods for creating a corpus
of more than 60,000 translations from Hindi to Gondi, a low-resource vulnerable
language spoken by around 2.3 million tribal people in south and central India.
During this process, we help expand information access in Gondi across 2
different dimensions (a) The creation of linguistic resources that can be used
by the community, such as a dictionary, children's stories, Gondi translations
from multiple sources and an Interactive Voice Response (IVR) based mass
awareness platform; (b) Enabling its use in the digital domain by developing a
Hindi-Gondi machine translation model, which is compressed by nearly 4 times to
enable it's edge deployment on low-resource edge devices and in areas of little
to no internet connectivity. We also present preliminary evaluations of
utilizing the developed machine translation model to provide assistance to
volunteers who are involved in collecting more data for the target language.
Through these interventions, we not only created a refined and evaluated corpus
of 26,240 Hindi-Gondi translations that was used for building the translation
model but also engaged nearly 850 community members who can help take Gondi
onto the internet.
- Abstract(参考訳): 低リソース言語のための技術を開発する上での最大の障害は、代表的なデータがないことだ。
本稿では,ヒンディー語からゴンディ語への6万以上の翻訳コーパスを作成するための技術主導型データ収集手法の展開について報告する。
この過程で、ゴンディにおける情報アクセスを2つの異なる次元に広げる手助けをする。
a) 辞書,子どもの物語,複数の情報源からのゴンディ訳,対話型音声応答(ivr)に基づく集団認知プラットフォームなど,コミュニティが使用できる言語資源の創造
b)Hindi-Gondi機械翻訳モデルを4倍近く圧縮し,低リソースエッジデバイスやインターネット接続のほとんどない領域にエッジを配置可能にすることにより,デジタルドメインにおけるその利用を実現する。
また,対象言語に対するより多くのデータ収集に携わるボランティアを支援するため,開発した機械翻訳モデルを利用した予備評価を行った。
これらの介入を通じて,26,240個のヒンディー語訳のコーパスを作成・評価し,翻訳モデルの構築に用いただけでなく,インターネット上でgondiを活用できるコミュニティメンバー850人近くを雇用した。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - A Tulu Resource for Machine Translation [3.038642416291856]
英語・トゥルー語翻訳のための最初の並列データセットを提案する。
トゥル語はインド南西部で約250万人が話されている。
パラレル・イングリッシュ・トゥルデータを使わずにトレーニングした我々のイングリッシュ・トゥルシステムは、Google Translateを19のBLEUポイントで上回っている。
論文 参考訳(メタデータ) (2024-03-28T04:30:07Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi [13.9876704685177]
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
これらの介入の最後には、12,000語未満の翻訳語や文を収集しました。
プロジェクトの大きな目標は、実行可能な言語テクノロジの構築とデプロイに十分なデータをゴンディで収集することだ。
論文 参考訳(メタデータ) (2020-04-21T20:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。