論文の概要: Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi
- arxiv url: http://arxiv.org/abs/2004.10270v2
- Date: Wed, 27 Jan 2021 03:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 07:24:46.293498
- Title: Learnings from Technological Interventions in a Low Resource Language: A
Case-Study on Gondi
- Title(参考訳): 低資源言語における技術介入から学ぶ:ゴンディを事例として
- Authors: Devansh Mehta, Sebastin Santy, Ramaravind Kommiya Mothilal, Brij Mohan
Lal Srivastava, Alok Sharma, Anurag Shukla, Vishnu Prasad, Venkanna U, Amit
Sharma, Kalika Bali
- Abstract要約: ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
これらの介入の最後には、12,000語未満の翻訳語や文を収集しました。
プロジェクトの大きな目標は、実行可能な言語テクノロジの構築とデプロイに十分なデータをゴンディで収集することだ。
- 参考スコア(独自算出の注目度): 13.9876704685177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The primary obstacle to developing technologies for low-resource languages is
the lack of usable data. In this paper, we report the adoption and deployment
of 4 technology-driven methods of data collection for Gondi, a low-resource
vulnerable language spoken by around 2.3 million tribal people in south and
central India. In the process of data collection, we also help in its revival
by expanding access to information in Gondi through the creation of linguistic
resources that can be used by the community, such as a dictionary, children's
stories, an app with Gondi content from multiple sources and an Interactive
Voice Response (IVR) based mass awareness platform. At the end of these
interventions, we collected a little less than 12,000 translated words and/or
sentences and identified more than 650 community members whose help can be
solicited for future translation efforts. The larger goal of the project is
collecting enough data in Gondi to build and deploy viable language
technologies like machine translation and speech to text systems that can help
take the language onto the internet.
- Abstract(参考訳): 低リソース言語向けの技術を開発する上での大きな障害は、使用可能なデータの欠如である。
本稿では,インド南部と中部で約230万人の部族が話していた低リソースの脆弱な言語であるゴンディの4つの技術駆動型データ収集手法の採用と展開について報告する。
データ収集の過程では、コミュニティが利用できる言語資源、例えば辞書、子供の物語、複数のソースからのゴンディコンテンツ付きアプリ、対話的音声応答(IVR)ベースのマスアウェアネスプラットフォームの作成を通じて、ゴンディの情報へのアクセスを拡大することで、その再生にも役立ちます。
これらの介入が終わると、12,000以上の翻訳語や文を収集し、将来の翻訳活動に協力できる650以上のコミュニティメンバーを特定した。
プロジェクトの大きな目標は、機械翻訳や音声といった実行可能な言語技術をテキストシステムに構築し、デプロイするために、gondiで十分なデータを集めることだ。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Learnings from Technological Interventions in a Low Resource Language:
Enhancing Information Access in Gondi [10.096480120676878]
我々はヒンディー語からゴンディ語への6万通以上の翻訳コーパスを作成した。
ゴンディ語は、南インドと中央インドで約230万人の部族が話している低資源の脆弱言語である。
論文 参考訳(メタデータ) (2022-11-29T13:03:37Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Not always about you: Prioritizing community needs when developing
endangered language technology [5.670857685983896]
研究者や先住民の言語コミュニティのメンバーが直面する、ユニークな技術的、文化的、実践的、倫理的課題について論じる。
本報告では, 言語教師, マスタースピーカー, および先住民コミュニティの高齢者の視点と, 学術的視点について報告する。
論文 参考訳(メタデータ) (2022-04-12T05:59:39Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。