Fugu-MT 論文翻訳(概要): Bootstrapping NLP tools across low-resourced African languages: an overview and prospects

論文の概要: Bootstrapping NLP tools across low-resourced African languages: an overview and prospects

arxiv url: http://arxiv.org/abs/2210.12027v1
Date: Fri, 21 Oct 2022 15:16:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 15:03:36.363433
Title: Bootstrapping NLP tools across low-resourced African languages: an overview and prospects
Title（参考訳）: 低リソースのアフリカ諸言語にまたがるNLPツールの概要と展望
Authors: C. Maria Keet
Abstract要約: あるアフリカの言語を別の言語からブートストラップするツールです地理的に離れた言語に対するブートストラップ文法は、形態学や規則、文法に基づく自然言語生成に対して、依然として肯定的な結果をもたらすことが示されている。
参考スコア（独自算出の注目度）: 1.5736899098702972
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Computing and Internet access are substantially growing markets in Southern Africa, which brings with it increasing demands for local content and tools in indigenous African languages. Since most of those languages are low-resourced, efforts have gone into the notion of bootstrapping tools for one African language from another. This paper provides an overview of these efforts for Niger-Congo B (`Bantu') languages. Bootstrapping grammars for geographically distant languages has been shown to still have positive outcomes for morphology and rules or grammar-based natural language generation. Bootstrapping with data-driven approaches to NLP tasks is difficult to use meaningfully regardless geographic proximity, which is largely due to lexical diversity due to both orthography and vocabulary. Cladistic approaches in comparative linguistics may inform bootstrapping strategies and similarity measures might serve as proxy for bootstrapping potential as well, with both fertile ground for further research.
Abstract（参考訳）: コンピューティングとインターネットアクセスは南アフリカの市場を著しく拡大させており、現地のアフリカ系言語におけるローカルコンテンツやツールに対する需要が高まっている。これらの言語のほとんどは低リソースであるため、あるアフリカの言語を別の言語からブートストラップするツールという概念に取り組みました。本稿では,niger-congo b (`bantu') 言語に対するこれらの取り組みの概要について述べる。地理的に離れた言語の文法をブートストラップすることは、形態学や規則、文法に基づく自然言語生成にプラスの結果をもたらすことが示されている。 NLPタスクに対するデータ駆動型アプローチによるブートストラップは、地理的近接性にかかわらず意味のある使用が困難である。比較言語学におけるクラジスティックなアプローチは、ブートストラップ戦略や類似性対策がブートストラップポテンシャルのプロキシとして役立ち、両者ともさらなる研究の場となる可能性がある。

関連論文リスト

Marito: Structuring and Building Open Multilingual Terminologies for South African NLP [0.9273919298354661]
南アフリカの公用語ハマーの構造化された用語データが不足しているため、多言語NLPは進歩している。本研究では,アフリカ中心のNOODLフレームワークを用いて,基盤となるEmphMaritoデータセットについて紹介する。実験では、英語からツシヴェンダ語への機械翻訳の精度とドメイン固有の一貫性が大幅に向上した。
論文参考訳（メタデータ） (2025-08-05T15:00:02Z)
Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文参考訳（メタデータ） (2025-06-30T22:26:36Z)
Charting the Landscape of African NLP: Mapping Progress and Shaping the Road Ahead [24.670007883062475]
アフリカは2000以上の言語を持つ世界で最も豊かな言語圏の1つである。この多様性は、最先端の自然言語処理システムにはほとんど反映されない。我々は過去5年間に出版されたアフリカ言語のためのNLPに関する734の研究論文を分析した。
論文参考訳（メタデータ） (2025-05-27T15:13:08Z)
Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文参考訳（メタデータ） (2025-02-24T17:41:48Z)
Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文参考訳（メタデータ） (2024-10-15T13:33:54Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Connecting Ideas in 'Lower-Resource' Scenarios: NLP for National Varieties, Creoles and Other Low-resource Scenarios [11.460959151493055]
少数の言語のベンチマークによる優れた結果にもかかわらず、大規模な言語モデルは、低リソースのシナリオにある言語からテキストを処理するのに苦労している。このチュートリアルでは、自然言語処理(NLP)研究における共通の課題、アプローチ、テーマを特定し、データ・ポーア・コンテキストに固有の障害に直面し克服する。
論文参考訳（メタデータ） (2024-09-19T11:48:42Z)
Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文参考訳（メタデータ） (2024-06-27T22:38:04Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文参考訳（メタデータ） (2023-10-23T17:42:01Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文参考訳（メタデータ） (2022-11-11T04:29:02Z)
The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。 1億人以上がこの言語を話すと推定されている。言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文参考訳（メタデータ） (2021-02-13T19:34:20Z)
Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文参考訳（メタデータ） (2017-08-30T08:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。