論文の概要: HiligayNER: A Baseline Named Entity Recognition Model for Hiligaynon
- arxiv url: http://arxiv.org/abs/2510.10776v1
- Date: Sun, 12 Oct 2025 19:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.102825
- Title: HiligayNER: A Baseline Named Entity Recognition Model for Hiligaynon
- Title(参考訳): HiligayNER: Hiligaynon のベースライン名付きエンティティ認識モデル
- Authors: James Ald Teves, Ray Daniel Cal, Josh Magdiel Villaluz, Jean Malolos, Mico Magtira, Ramon Rodriguez, Mideth Abisado, Joseph Marvin Imperial,
- Abstract要約: 本研究は,Hiligaynon における Named Entity Recognition タスクのベースラインモデルである HiligayNER を紹介する。
HiligayNERを構築するために使用されるデータセットには、公開されているニュース記事、ソーシャルメディア投稿、文学テキストから収集された8000以上の注釈付き文が含まれている。
評価結果は高い性能を示し、どちらのモデルもエンティティタイプで80%以上の精度、リコール、F1スコアを達成した。
- 参考スコア(独自算出の注目度): 4.714093573695733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The language of Hiligaynon, spoken predominantly by the people of Panay Island, Negros Occidental, and Soccsksargen in the Philippines, remains underrepresented in language processing research due to the absence of annotated corpora and baseline models. This study introduces HiligayNER, the first publicly available baseline model for the task of Named Entity Recognition (NER) in Hiligaynon. The dataset used to build HiligayNER contains over 8,000 annotated sentences collected from publicly available news articles, social media posts, and literary texts. Two Transformer-based models, mBERT and XLM-RoBERTa, were fine-tuned on this collected corpus to build versions of HiligayNER. Evaluation results show strong performance, with both models achieving over 80% in precision, recall, and F1-score across entity types. Furthermore, cross-lingual evaluation with Cebuano and Tagalog demonstrates promising transferability, suggesting the broader applicability of HiligayNER for multilingual NLP in low-resource settings. This work aims to contribute to language technology development for underrepresented Philippine languages, specifically for Hiligaynon, and support future research in regional language processing.
- Abstract(参考訳): ヒリグアイノン語は主にフィリピンのパナイ島、ネグロス・オクシデンタル、ソックスクサルゲンの住民によって話されているが、注釈付きコーパスとベースラインモデルがないため、言語処理の研究には不足している。
本研究は,Hiligaynon における Named Entity Recognition (NER) タスクのための最初の一般公開ベースラインモデルである HiligayNER を紹介する。
HiligayNERを構築するために使用されるデータセットには、公開されているニュース記事、ソーシャルメディア投稿、文学テキストから収集された8000以上の注釈付き文が含まれている。
2つのトランスフォーマーベースのモデルであるmBERTとXLM-RoBERTaは、この収集されたコーパスに基づいて、HiligayNERのバージョンを構築した。
評価結果は高い性能を示し、どちらのモデルもエンティティタイプで80%以上の精度、リコール、F1スコアを達成した。
さらに、Cebuano と Tagalog による言語間評価は、多言語 NLP に対する HiligayNER の低リソース環境での広範な適用性を示唆する、有望な転送可能性を示している。
本研究は、フィリピンの未表現言語、特にヒリグアイノンの言語技術開発に貢献し、地域言語処理における将来の研究を支援することを目的としている。
関連論文リスト
- Exploring NLP Benchmarks in an Extremely Low-Resource Setting [21.656551146954587]
本稿では、絶滅危惧言語であるラディンに焦点を当て、特にヴァル・バディアの変種を対象とする。
我々は、単言語イタリア語データを翻訳することで、感情分析とマルチチョイス質問応答(MCQA)のための合成データセットを作成する。
論文 参考訳(メタデータ) (2025-09-04T07:41:23Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment
in Central Philippine Languages [8.64545246732563]
我々は,フィリピンの低資源言語における可読性評価のためのコーパスとベースラインモデルの拡張を目的としたイニシアチブの一環として,BasahaCorpusを導入・リリースする。
私たちは、Hiligaynon、Minasbate、Karay-a、Rinconadaで書かれた短編物語のコーパスをまとめました。
本稿では,家系木に言語を配置し,利用可能なトレーニングデータの量を増やす階層型言語間モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T21:05:20Z) - CebuaNER: A New Baseline Cebuano Named Entity Recognition Model [1.5056924758531152]
本稿ではCebuaNERについて紹介する。CebuaNERはCebuano言語における名前付きエンティティ認識のための新しいベースラインモデルである。
モデルを構築するために、4000以上のニュース記事を収集し、注釈を付けました。
その結果,新しいベースラインモデルとして有望な結果が得られ,すべてのエンティティタグに対して70%以上の精度,リコール,F1が達成された。
論文 参考訳(メタデータ) (2023-10-01T14:09:42Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。