論文の概要: Bootstrapping NLP tools across low-resourced African languages: an
overview and prospects
- arxiv url: http://arxiv.org/abs/2210.12027v1
- Date: Fri, 21 Oct 2022 15:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 15:03:36.363433
- Title: Bootstrapping NLP tools across low-resourced African languages: an
overview and prospects
- Title(参考訳): 低リソースのアフリカ諸言語にまたがるNLPツールの概要と展望
- Authors: C. Maria Keet
- Abstract要約: あるアフリカの言語を別の言語からブートストラップするツールです
地理的に離れた言語に対するブートストラップ文法は、形態学や規則、文法に基づく自然言語生成に対して、依然として肯定的な結果をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 1.5736899098702972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computing and Internet access are substantially growing markets in Southern
Africa, which brings with it increasing demands for local content and tools in
indigenous African languages. Since most of those languages are low-resourced,
efforts have gone into the notion of bootstrapping tools for one African
language from another. This paper provides an overview of these efforts for
Niger-Congo B (`Bantu') languages. Bootstrapping grammars for geographically
distant languages has been shown to still have positive outcomes for morphology
and rules or grammar-based natural language generation. Bootstrapping with
data-driven approaches to NLP tasks is difficult to use meaningfully regardless
geographic proximity, which is largely due to lexical diversity due to both
orthography and vocabulary. Cladistic approaches in comparative linguistics may
inform bootstrapping strategies and similarity measures might serve as proxy
for bootstrapping potential as well, with both fertile ground for further
research.
- Abstract(参考訳): コンピューティングとインターネットアクセスは南アフリカの市場を著しく拡大させており、現地のアフリカ系言語におけるローカルコンテンツやツールに対する需要が高まっている。
これらの言語のほとんどは低リソースであるため、あるアフリカの言語を別の言語からブートストラップするツールという概念に取り組みました。
本稿では,niger-congo b (`bantu') 言語に対するこれらの取り組みの概要について述べる。
地理的に離れた言語の文法をブートストラップすることは、形態学や規則、文法に基づく自然言語生成にプラスの結果をもたらすことが示されている。
NLPタスクに対するデータ駆動型アプローチによるブートストラップは、地理的近接性にかかわらず意味のある使用が困難である。
比較言語学におけるクラジスティックなアプローチは、ブートストラップ戦略や類似性対策がブートストラップポテンシャルのプロキシとして役立ち、両者ともさらなる研究の場となる可能性がある。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Adapting to the Low-Resource Double-Bind: Investigating Low-Compute
Methods on Low-Resource African Languages [0.6833698896122186]
アフリカの言語のデータ不足問題に追加された高い計算資源へのアクセス。
低リソースのアフリカNLPに対して,言語アダプタをコスト効率の良いアプローチとして評価する。
これにより、言語アダプタの能力に関するさらなる実験と探索の扉が開ける。
論文 参考訳(メタデータ) (2023-03-29T19:25:43Z) - A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。
NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。
NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文 参考訳(メタデータ) (2022-11-11T04:29:02Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Dataset Geography: Mapping Language Data to Language Users [17.30955185832338]
本研究では,NLPデータセットが言語話者の期待するニーズにどの程度一致しているかを定量化することを目的として,NLPデータセットの地理的代表性について検討する。
その際、エンティティ認識とリンクシステムを使用し、言語間の一貫性について重要な観察を行う。
最後に,観測された分布データセットを説明するための地理的・経済的要因について検討する。
論文 参考訳(メタデータ) (2021-12-07T05:13:50Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。