論文の概要: Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi
- arxiv url: http://arxiv.org/abs/2003.04986v1
- Date: Tue, 18 Feb 2020 13:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 18:58:29.281156
- Title: Investigating an approach for low resource language dataset creation,
curation and classification: Setswana and Sepedi
- Title(参考訳): 低リソース言語データセット作成, キュレーション, 分類のためのアプローチの検討: Seswana と Sepedi
- Authors: Vukosi Marivate, Tshephisho Sefara, Vongani Chabalala, Keamogetswe
Makhaya, Tumisho Mokgonyane, Rethabile Mokoena, Abiodun Modupe
- Abstract要約: SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
ニューストピックの分類タスクも作成します。
本稿では,低リソース言語に適したデータ拡張手法について検討する。
- 参考スコア(独自算出の注目度): 2.3801001093799115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recent advances in Natural Language Processing have been a boon for
well-represented languages in terms of available curated data and research
resources. One of the challenges for low-resourced languages is clear
guidelines on the collection, curation and preparation of datasets for
different use-cases. In this work, we take on the task of creation of two
datasets that are focused on news headlines (i.e short text) for Setswana and
Sepedi and creation of a news topic classification task. We document our work
and also present baselines for classification. We investigate an approach on
data augmentation, better suited to low resource languages, to improve the
performance of the classifiers
- Abstract(参考訳): 自然言語処理の最近の進歩は、利用可能なキュレートされたデータと研究資源の観点から、よく表現された言語にとって恩恵となった。
低リソース言語の課題のひとつは、さまざまなユースケースのためのデータセットの収集、キュレーション、準備に関する明確なガイドラインである。
本研究では,setwanaとsepediのニュース見出し(短文)に着目した2つのデータセットの作成と,ニューストピック分類タスクの作成を行う。
作業の文書化や,分類のベースラインも行います。
我々は,低リソース言語に適したデータ拡張手法について検討し,分類器の性能向上を図る。
関連論文リスト
- GPTs Are Multilingual Annotators for Sequence Generation Tasks [11.59128394819439]
本研究では,大規模言語モデルを用いた自律アノテーション手法を提案する。
提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T09:44:02Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Simplifying Multilingual News Clustering Through Projection From a
Shared Space [0.39560040546164016]
メディア監視のための多言語ニュース記事の整理とクラスタ化は,ニュース記事のリアルタイムな追跡に不可欠である。
このタスクのほとんどのアプローチは、高リソース言語(主に英語)に焦点を当てており、低リソース言語は無視されている。
言語固有の機能に依存することなく、よりシンプルな文書ストリームをクラスタリングできるオンラインシステムを提案する。
論文 参考訳(メタデータ) (2022-04-28T11:32:49Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Studying Taxonomy Enrichment on Diachronic WordNet Versions [70.27072729280528]
本稿では,資源の乏しい環境での分類拡張の可能性について検討し,多数の言語に適用可能な手法を提案する。
我々は、分類の豊かさを訓練し評価するための新しい英語とロシア語のデータセットを作成し、他の言語のためのそのようなデータセットを作成する技術を記述する。
論文 参考訳(メタデータ) (2020-11-23T16:49:37Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Low resource language dataset creation, curation and classification:
Setswana and Sepedi -- Extended Abstract [2.3801001093799115]
SetswanaとSepediのニュースの見出しに焦点を当てたデータセットを作成します。
分類のためのベースラインを提案し,低リソース言語に適したデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-03-30T18:03:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。