論文の概要: Izindaba-Tindzaba: Machine learning news categorisation for Long and
Short Text for isiZulu and Siswati
- arxiv url: http://arxiv.org/abs/2306.07426v1
- Date: Mon, 12 Jun 2023 21:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 15:49:53.449659
- Title: Izindaba-Tindzaba: Machine learning news categorisation for Long and
Short Text for isiZulu and Siswati
- Title(参考訳): izindaba-tindzaba: isizuluとsiswatiのための長文と短文の機械学習ニュース分類
- Authors: Andani Madodonga, Vukosi Marivate, Matthew Adendorff
- Abstract要約: 南アフリカの言語は低資源言語に分類される。
この作業では、isiZuluとSiswatiのネイティブ言語用の注釈付きニュースデータセットの作成に重点が置かれた。
- 参考スコア(独自算出の注目度): 1.666378501554705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local/Native South African languages are classified as low-resource
languages. As such, it is essential to build the resources for these languages
so that they can benefit from advances in the field of natural language
processing. In this work, the focus was to create annotated news datasets for
the isiZulu and Siswati native languages based on news topic classification
tasks and present the findings from these baseline classification models. Due
to the shortage of data for these native South African languages, the datasets
that were created were augmented and oversampled to increase data size and
overcome class classification imbalance. In total, four different
classification models were used namely Logistic regression, Naive bayes,
XGBoost and LSTM. These models were trained on three different word embeddings
namely Bag-Of-Words, TFIDF and Word2vec. The results of this study showed that
XGBoost, Logistic Regression and LSTM, trained from Word2vec performed better
than the other combinations.
- Abstract(参考訳): 南アフリカの言語は低資源言語に分類される。
そのため、自然言語処理の分野の進歩を享受できるように、これらの言語のためのリソースを構築することが不可欠である。
本研究の目的は,ニューストピック分類タスクに基づいて,isizuluとsiswatiのネイティブ言語のための注釈付きニュースデータセットを作成し,これらのベースライン分類モデルから得られた知見を紹介することである。
これらの南アフリカ原産言語のデータ不足のため、データセットは拡張され、データサイズを増やし、クラス分類の不均衡を克服するためにオーバーサンプリングされた。
総合的に,ロジスティック回帰,ナイーブベイズ,XGBoost,LSTMの4つの異なる分類モデルを用いた。
これらのモデルは、bag-of-words、tfidf、word2vecという3つの異なる単語埋め込みで訓練された。
本研究の結果,word2vecからトレーニングしたxgboost,logistic regression,lstmは,他の組み合わせよりも優れた成績を示した。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Low-Resource Language Modelling of South African Languages [6.805575417034369]
南アフリカの低資源言語におけるボカブラリ言語モデルの性能を評価する。
本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの異種を小規模データセット上で評価する。
全体的に、よく規則化されたRNNは、2つのisiZuluと1つのSepediデータセットで最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T21:27:27Z) - KINNEWS and KIRNEWS: Benchmarking Cross-Lingual Text Classification for
Kinyarwanda and Kirundi [18.01565807026177]
我々はKinyarwandaとKirndiという低リソースのアフリカの2つの言語でニュース記事の分類のための2つのニュースデータセットを紹介した。
統計情報、事前処理のガイドライン、単言語および言語間ベースラインモデルを提供する。
実験の結果, 比較的高出力のKinyarwandaへの埋め込みを訓練することで, キルンディへの言語間移動が成功することがわかった。
論文 参考訳(メタデータ) (2020-10-23T05:37:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。