論文の概要: BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment
in Central Philippine Languages
- arxiv url: http://arxiv.org/abs/2310.11584v1
- Date: Tue, 17 Oct 2023 21:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:27:47.206340
- Title: BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment
in Central Philippine Languages
- Title(参考訳): BasahaCorpus:中央フィリピン語における可読性評価のための拡張言語資源
- Authors: Joseph Marvin Imperial, Ekaterina Kochmar
- Abstract要約: 我々は,フィリピンの低資源言語における可読性評価のためのコーパスとベースラインモデルの拡張を目的としたイニシアチブの一環として,BasahaCorpusを導入・リリースする。
私たちは、Hiligaynon、Minasbate、Karay-a、Rinconadaで書かれた短編物語のコーパスをまとめました。
本稿では,家系木に言語を配置し,利用可能なトレーニングデータの量を増やす階層型言語間モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.64545246732563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current research on automatic readability assessment (ARA) has focused on
improving the performance of models in high-resource languages such as English.
In this work, we introduce and release BasahaCorpus as part of an initiative
aimed at expanding available corpora and baseline models for readability
assessment in lower resource languages in the Philippines. We compiled a corpus
of short fictional narratives written in Hiligaynon, Minasbate, Karay-a, and
Rinconada -- languages belonging to the Central Philippine family tree subgroup
-- to train ARA models using surface-level, syllable-pattern, and n-gram
overlap features. We also propose a new hierarchical cross-lingual modeling
approach that takes advantage of a language's placement in the family tree to
increase the amount of available training data. Our study yields encouraging
results that support previous work showcasing the efficacy of cross-lingual
models in low-resource settings, as well as similarities in highly informative
linguistic features for mutually intelligible languages.
- Abstract(参考訳): 自動可読性評価(ARA)に関する最近の研究は、英語などの高リソース言語におけるモデルの性能向上に重点を置いている。
本稿では,フィリピンの低資源言語における可読性評価のためのコーパスおよびベースラインモデルの拡張を目的とした取り組みの一環として,basahacorpusの紹介とリリースを行う。
hiligaynon, minasbate, karay-a, rinconada(中央フィリピンの家系図サブグループに属する言語)で書かれた短編小説のコーパスをコンパイルし、表面レベル、音節パターン、n-gram重なり特徴を用いてaraモデルを訓練した。
また,利用可能なトレーニングデータの量を増やすために,家系図内の言語配置を利用した新しい階層的言語間モデリング手法を提案する。
本研究は,低リソース環境下での言語間モデルの有効性を実証する先行研究を支援するとともに,相互に理解可能な言語的特徴の類似性を示す。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Compass: Large Multilingual Language Model for South-east Asia [0.0]
CompassLLMは東南アジアの言語に特化した多言語モデルである。
我々のモデルはインドネシア語のような東南アジアの言語で優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:48:33Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CebuaNER: A New Baseline Cebuano Named Entity Recognition Model [1.5056924758531152]
本稿ではCebuaNERについて紹介する。CebuaNERはCebuano言語における名前付きエンティティ認識のための新しいベースラインモデルである。
モデルを構築するために、4000以上のニュース記事を収集し、注釈を付けました。
その結果,新しいベースラインモデルとして有望な結果が得られ,すべてのエンティティタグに対して70%以上の精度,リコール,F1が達成された。
論文 参考訳(メタデータ) (2023-10-01T14:09:42Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。
フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。
本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-05-22T20:42:53Z) - A Baseline Readability Model for Cebuano [0.0]
セブアーノ語の最初のベースライン可読性モデルを開発した。
セブアーノ語はフィリピンで2番目に多く使われている母語であり、約27.5万人が話者である。
論文 参考訳(メタデータ) (2022-03-31T17:49:11Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。