論文の概要: myNER: Contextualized Burmese Named Entity Recognition with Bidirectional LSTM and fastText Embeddings via Joint Training with POS Tagging
- arxiv url: http://arxiv.org/abs/2504.04038v1
- Date: Sat, 05 Apr 2025 03:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:12:50.213931
- Title: myNER: Contextualized Burmese Named Entity Recognition with Bidirectional LSTM and fastText Embeddings via Joint Training with POS Tagging
- Title(参考訳): myNER: POSタグと共同トレーニングによる双方向LSTMと高速テキスト埋め込みによるコンテキスト化ビルマ名付きエンティティ認識
- Authors: Kaung Lwin Thant, Kwankamol Nongpong, Ye Kyaw Thu, Thura Aung, Khaing Hsu Wai, Thazin Myint Oo,
- Abstract要約: 7タグのアノテーションスキームを特徴とする単語レベルNERコーパスであるmyNERを紹介する。
また、条件付きランダムフィールド(CRF)、双方向LSTM(BiLSTM)-CRF、および高速テキスト埋め込みの組み合わせを含む、NERモデルの包括的評価を行う。
実験により,文脈的単語埋め込みの有効性とPOSタグ付き共同学習の効果が明らかにされた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Named Entity Recognition (NER) involves identifying and categorizing named entities within textual data. Despite its significance, NER research has often overlooked low-resource languages like Myanmar (Burmese), primarily due to the lack of publicly available annotated datasets. To address this, we introduce myNER, a novel word-level NER corpus featuring a 7-tag annotation scheme, enriched with Part-of-Speech (POS) tagging to provide additional syntactic information. Alongside the corpus, we conduct a comprehensive evaluation of NER models, including Conditional Random Fields (CRF), Bidirectional LSTM (BiLSTM)-CRF, and their combinations with fastText embeddings in different settings. Our experiments reveal the effectiveness of contextualized word embeddings and the impact of joint training with POS tagging, demonstrating significant performance improvements across models. The traditional CRF joint-task model with fastText embeddings as a feature achieved the best result, with a 0.9818 accuracy and 0.9811 weighted F1 score with 0.7429 macro F1 score. BiLSTM-CRF with fine-tuned fastText embeddings gets the best result of 0.9791 accuracy and 0.9776 weighted F1 score with 0.7395 macro F1 score.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、テキストデータ内の名前付きエンティティを識別し分類する。
NERの研究は、その重要性にもかかわらず、ミャンマー(ビルマ)のような低リソース言語をしばしば見落としている。
そこで本研究では,新しい単語レベルのNERコーパスであるmyNERを紹介した。
コーパスの他に、条件付きランダムフィールド(CRF)、双方向LSTM(BiLSTM)-CRFを含むNERモデルの包括的評価を行い、異なる設定でのfastText埋め込みと組み合わせた。
実験により,文脈型単語埋め込みの有効性とPOSタグを用いた共同学習の効果が明らかとなり,モデル間での大幅な性能向上が示された。
高速テキスト埋め込みを特徴とする従来のCRFジョイントタスクモデルは、0.9818の精度と0.9811の重み付きF1のスコアと0.7429のマクロF1のスコアで最高の結果を得た。
微調整の高速テキスト埋め込みによるBiLSTM-CRFは0.9791の精度と0.9776の重み付きF1スコアと0.7395のマクロF1スコアの最良の結果を得た。
関連論文リスト
- Using Large Language Model for End-to-End Chinese ASR and NER [35.876792804001646]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - RGAT: A Deeper Look into Syntactic Dependency Information for
Coreference Resolution [8.017036537163008]
我々は、事前学習されたBERTと構文関係グラフ注意ネットワーク(RGAT)を組み合わせたエンドツーエンドの解決法を提案する。
特に、RGATモデルが最初に提案され、次に、構文依存グラフを理解し、より優れたタスク固有の構文埋め込みを学ぶために使用される。
BERT埋め込みと構文埋め込みを組み合わせた統合アーキテクチャを構築し、下流タスクのブレンディング表現を生成する。
論文 参考訳(メタデータ) (2023-09-10T09:46:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - BanglaCoNER: Towards Robust Bangla Complex Named Entity Recognition [0.0]
本稿では,Bangla Complex Named Entity Recognition Challengeの勝利解を提案する。
データセットはトレーニング用15300文と検証用800文で構成されている。
また,バングラ語におけるNERに対するBanglaBERTなどのディープラーニングモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-16T13:31:31Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - NEAR: Named Entity and Attribute Recognition of clinical concepts [2.4278445972594525]
本研究の目的は,NERタスクを教師付き多ラベルタギング問題としてモデル化することで,エンティティとその属性を検出する領域に寄与することである。
本稿では, BiLSTM n-CRF, BiLSTM-CRF-Smax-TF, BiLSTM n-CRF-TFの3つのアーキテクチャを提案する。
我々の異なるモデルは、i2b2 2010/VAとi2b2 2012データセットでそれぞれ0.894と0.808のNER F1スコアを得る。
論文 参考訳(メタデータ) (2022-08-30T01:46:11Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Recognizing Chinese Judicial Named Entity using BiLSTM-CRF [10.676125626144142]
双方向長短期メモリ(BiLSTM)と条件付きランダムフィールド(CRF)を組み合わせた深層学習に基づくBiLSTM-CRFを提案する。
提案手法を検証するため,中国ジャッジメントオンラインから取得した,通勤・仮釈放・仮サービス等の判定文書の実験を行った。
実験の結果, 0.876の精度, 0.856のリコール, F1のスコア0.855の精度が得られ, 提案したBiLSTM-CRFのAdamとの優位性が示唆された。
論文 参考訳(メタデータ) (2020-05-31T08:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。