論文の概要: NERCat: Fine-Tuning for Enhanced Named Entity Recognition in Catalan
- arxiv url: http://arxiv.org/abs/2503.14173v1
- Date: Tue, 18 Mar 2025 11:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:41.600317
- Title: NERCat: Fine-Tuning for Enhanced Named Entity Recognition in Catalan
- Title(参考訳): NERCat: カタルーニャにおける名前付きエンティティ認識の強化のためのファインチューニング
- Authors: Guillem Cadevall Ferreres, Marc Serrano Sanz, Marc Bardeli Gámez, Pol Gerdt Basullas, Francesc Tarres Ruiz, Raul Quijada Ferrero,
- Abstract要約: 本稿では,カタルーニャ語テキストに特有なNER性能向上を目的とした,GLiNER[1]モデルの微調整版であるNERCatを紹介する。
筆者らは、手動でアノテートされたカタルーニャ語テレビの文字起こしのデータセットを使用して、そのモデルを訓練し、微調整し、政治、スポーツ、文化といった分野に焦点を当てた。
評価の結果, 精度, リコール, F1スコアが著しく向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Named Entity Recognition (NER) is a critical component of Natural Language Processing (NLP) for extracting structured information from unstructured text. However, for low-resource languages like Catalan, the performance of NER systems often suffers due to the lack of high-quality annotated datasets. This paper introduces NERCat, a fine-tuned version of the GLiNER[1] model, designed to improve NER performance specifically for Catalan text. We used a dataset of manually annotated Catalan television transcriptions to train and fine-tune the model, focusing on domains such as politics, sports, and culture. The evaluation results show significant improvements in precision, recall, and F1-score, particularly for underrepresented named entity categories such as Law, Product, and Facility. This study demonstrates the effectiveness of domain-specific fine-tuning in low-resource languages and highlights the potential for enhancing Catalan NLP applications through manual annotation and high-quality datasets.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、構造化されていないテキストから構造化された情報を抽出する自然言語処理(NLP)の重要なコンポーネントである。
しかしながら、カタルーニャ語のような低リソース言語では、高品質なアノテートデータセットが欠如しているため、NERシステムの性能が劣化することが多い。
本稿では,カタルーニャ語テキストに特有なNER性能向上を目的とした,GLiNER[1]モデルの微調整版であるNERCatを紹介する。
筆者らは、手動でアノテートされたカタルーニャ語テレビの文字起こしのデータセットを用いて、モデルを訓練し、微調整し、政治、スポーツ、文化といった分野に焦点を当てた。
評価の結果, 精度, リコール, F1スコアが著しく向上した。
本研究は、低リソース言語におけるドメイン固有微調整の有効性を実証し、手動アノテーションと高品質データセットによるカタルーニャNLPアプリケーションの拡張の可能性を強調した。
関連論文リスト
- A Thorough Investigation into the Application of Deep CNN for Enhancing Natural Language Processing Capabilities [0.0]
本稿では,Deep Convolutional Neural Networks(DCNN)を自然言語処理に導入する。
DCNN、機械学習アルゴリズム、GAN(Generative Adversarial Network)を統合することで、言語理解を改善し、あいまいさを低減し、タスクパフォーマンスを向上させる。
高性能NLPモデルでは,セグメント化精度が10%向上し,リコール率も従来のモデルに比べて4%向上した。
論文 参考訳(メタデータ) (2024-12-20T13:53:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi [1.6383036433216434]
低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
論文 参考訳(メタデータ) (2023-12-03T06:53:53Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - T-NER: An All-Round Python Library for Transformer-based Named Entity
Recognition [9.928025283928282]
T-NERは、NER LMファインタニング用のPythonライブラリである。
9つのパブリックなNERデータセットを統一されたフォーマットにコンパイルすることで、ライブラリの可能性を示す。
将来の研究を容易にするため、Hugging Faceモデルハブを通じてLMチェックポイントをすべてリリースしています。
論文 参考訳(メタデータ) (2022-09-09T15:00:38Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。