論文の概要: KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for
Kinyarwanda and Kirundi
- arxiv url: http://arxiv.org/abs/2010.12174v1
- Date: Fri, 23 Oct 2020 05:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:10:10.638245
- Title: KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for
Kinyarwanda and Kirundi
- Title(参考訳): KINNEWS と KIRNEWS: Kinyarwanda と Kirundi の言語間テキスト分類のベンチマーク
- Authors: Rubungo Andre Niyongabo and Hong Qu and Julia Kreutzer and Li Huang
- Abstract要約: 我々はKinyarwandaとKirndiという低リソースのアフリカの2つの言語でニュース記事の分類のための2つのニュースデータセットを紹介した。
統計情報、事前処理のガイドライン、単言語および言語間ベースラインモデルを提供する。
実験の結果, 比較的高出力のKinyarwandaへの埋め込みを訓練することで, キルンディへの言語間移動が成功することがわかった。
- 参考スコア(独自算出の注目度): 18.01565807026177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text classification has been focused on high-resource
languages such as English and Chinese. For low-resource languages, amongst them
most African languages, the lack of well-annotated data and effective
preprocessing, is hindering the progress and the transfer of successful
methods. In this paper, we introduce two news datasets (KINNEWS and KIRNEWS)
for multi-class classification of news articles in Kinyarwanda and Kirundi, two
low-resource African languages. The two languages are mutually intelligible,
but while Kinyarwanda has been studied in Natural Language Processing (NLP) to
some extent, this work constitutes the first study on Kirundi. Along with the
datasets, we provide statistics, guidelines for preprocessing, and monolingual
and cross-lingual baseline models. Our experiments show that training
embeddings on the relatively higher-resourced Kinyarwanda yields successful
cross-lingual transfer to Kirundi. In addition, the design of the created
datasets allows for a wider use in NLP beyond text classification in future
studies, such as representation learning, cross-lingual learning with more
distant languages, or as base for new annotations for tasks such as parsing,
POS tagging, and NER. The datasets, stopwords, and pre-trained embeddings are
publicly available at https://github.com/Andrews2017/KINNEWS-and-KIRNEWS-Corpus .
- Abstract(参考訳): テキスト分類の最近の進歩は、英語や中国語などの高リソース言語に焦点を当てている。
低リソース言語では、多くのアフリカ言語の中で、十分な注釈付きデータと効果的な事前処理が欠如しているため、メソッドの進歩と転送が妨げられている。
本稿では,アフリカの低リソース言語kiyarwandaとkirundiにおけるニュース記事のマルチクラス分類のための2つのニュースデータセット(kinnewsとkirnews)を紹介する。
2つの言語は相互に理解可能であるが、キンヤルワンダは自然言語処理(NLP)においてある程度研究されてきたが、この研究はキルンディに関する最初の研究である。
データセットとともに、統計、前処理のためのガイドライン、および単言語および言語間ベースラインモデルを提供する。
我々の実験では、比較的高いリソースを持つkinyarwandaへのトレーニング埋め込みが、kirundiへの言語間移行を成功させることが示された。
さらに、生成されたデータセットの設計により、表現学習、より遠い言語での言語間学習、構文解析、POSタグ付け、NERといったタスクのための新しいアノテーションの基盤など、将来の研究におけるテキスト分類を超えて、NLPを広く使用することができる。
データセット、ストップワード、事前トレーニングされた埋め込みはhttps://github.com/Andrews2017/KINNEWS-and-KIRNEWS-Corpusで公開されている。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Benchmarking Multilabel Topic Classification in the Kyrgyz Language [6.15353988889181]
我々は,ニュースサイト24.KGの収集および注釈付きデータに基づいて,キルギスにおけるトピック分類のための新しい公開ベンチマークを提案する。
我々は、古典的な統計モデルとニューラルモデルの両方をトレーニングし、評価し、スコアを報告し、結果を議論し、将来の仕事の方向性を提案します。
論文 参考訳(メタデータ) (2023-08-30T11:02:26Z) - Izindaba-Tindzaba: Machine learning news categorisation for Long and
Short Text for isiZulu and Siswati [1.666378501554705]
南アフリカの言語は低資源言語に分類される。
この作業では、isiZuluとSiswatiのネイティブ言語用の注釈付きニュースデータセットの作成に重点が置かれた。
論文 参考訳(メタデータ) (2023-06-12T21:02:12Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z) - Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T13:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。