論文の概要: CebuaNER: A New Baseline Cebuano Named Entity Recognition Model
- arxiv url: http://arxiv.org/abs/2310.00679v1
- Date: Sun, 1 Oct 2023 14:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:38:48.315562
- Title: CebuaNER: A New Baseline Cebuano Named Entity Recognition Model
- Title(参考訳): CebuaNER: エンティティ認識モデルによる新しいベースラインCebuano
- Authors: Ma. Beatrice Emanuela Pilar, Ellyza Mari Papas, Mary Loise
Buenaventura, Dane Dedoroy, Myron Darrel Montefalcon, Jay Rhald Padilla, Lany
Maceda, Mideth Abisado, Joseph Marvin Imperial
- Abstract要約: 本稿ではCebuaNERについて紹介する。CebuaNERはCebuano言語における名前付きエンティティ認識のための新しいベースラインモデルである。
モデルを構築するために、4000以上のニュース記事を収集し、注釈を付けました。
その結果,新しいベースラインモデルとして有望な結果が得られ,すべてのエンティティタグに対して70%以上の精度,リコール,F1が達成された。
- 参考スコア(独自算出の注目度): 1.5056924758531152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite being one of the most linguistically diverse groups of countries,
computational linguistics and language processing research in Southeast Asia
has struggled to match the level of countries from the Global North. Thus,
initiatives such as open-sourcing corpora and the development of baseline
models for basic language processing tasks are important stepping stones to
encourage the growth of research efforts in the field. To answer this call, we
introduce CebuaNER, a new baseline model for named entity recognition (NER) in
the Cebuano language. Cebuano is the second most-used native language in the
Philippines, with over 20 million speakers. To build the model, we collected
and annotated over 4,000 news articles, the largest of any work in the
language, retrieved from online local Cebuano platforms to train algorithms
such as Conditional Random Field and Bidirectional LSTM. Our findings show
promising results as a new baseline model, achieving over 70% performance on
precision, recall, and F1 across all entity tags, as well as potential efficacy
in a crosslingual setup with Tagalog.
- Abstract(参考訳): 東南アジアにおける計算言語学と言語処理の研究は、最も言語学的に多様な国の1つでありながら、グローバル・ノースの国々のレベルに合わせるのに苦労してきた。
したがって、コーパスのオープンソース化や基本言語処理タスクのベースラインモデルの開発といったイニシアティブは、この分野の研究活動の成長を促進する上で重要な一歩となる。
このコールに答えるために、CebuaNERは、Cebuano言語で名前付きエンティティ認識(NER)のための新しいベースラインモデルである。
セブアーノ語はフィリピンで2番目に使われている母語であり、2000万人以上の話者がいる。
このモデルを構築するために、我々は、オンラインのCebuanoプラットフォームから取得した4000以上のニュース記事を収集し、注釈付けし、条件付きランダムフィールドや双方向LSTMなどのアルゴリズムをトレーニングした。
本研究は,新しいベースラインモデルとして有望な結果を示し,すべてのエンティティタグに対する精度,リコール,F1の70%以上の性能,およびタガログを用いたクロスリンガル設定の有効性を示した。
関連論文リスト
- BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment
in Central Philippine Languages [8.64545246732563]
我々は,フィリピンの低資源言語における可読性評価のためのコーパスとベースラインモデルの拡張を目的としたイニシアチブの一環として,BasahaCorpusを導入・リリースする。
私たちは、Hiligaynon、Minasbate、Karay-a、Rinconadaで書かれた短編物語のコーパスをまとめました。
本稿では,家系木に言語を配置し,利用可能なトレーニングデータの量を増やす階層型言語間モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T21:05:20Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean
Language Models [6.907247943327277]
Polyglotは多言語モデルの非英語のパフォーマンス向上を目的とした先駆的なプロジェクトである。
多言語韓国語モデルは、自然界において多言語的ではなく、特定の焦点を表わすものである。
論文 参考訳(メタデータ) (2023-06-04T04:04:04Z) - Automatic Readability Assessment for Closely Related Languages [6.233117407988574]
この研究は、相互の知性や言語関連度などの言語的側面が、低リソース環境でのARAをどのように改善できるかに焦点を当てる。
フィリピン・タガログ語・ビコル語・セブアーノ語の3言語で書かれた短い記事を収集し,読みやすさ評価モデルを構築した。
本研究は, 相互信頼度の高い言語にn-gram重み付けを適用した新たな機能であるCrossNGOの導入により, ARAモデルの性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-05-22T20:42:53Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - A Baseline Readability Model for Cebuano [0.0]
セブアーノ語の最初のベースライン可読性モデルを開発した。
セブアーノ語はフィリピンで2番目に多く使われている母語であり、約27.5万人が話者である。
論文 参考訳(メタデータ) (2022-03-31T17:49:11Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。