論文の概要: DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2409.11022v4
- Date: Mon, 24 Feb 2025 08:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:25.304638
- Title: DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition
- Title(参考訳): DynamicNER: LLMに基づく名前付きエンティティ認識のための動的・多言語的・細粒度データセット
- Authors: Hanjun Luo, Yingbin Jin, Xinfeng Li, Xuecheng Liu, Ruizhe Chen, Tong Shang, Kun Wang, Qingsong Wen, Zuozhu Liu,
- Abstract要約: 大規模言語モデル(LLM)に特化して設計された最初のNERデータセットであるDynamicNERを提案する。
8つの言語と155のエンティティタイプをカバーし、コーパスは複数の専門ドメインにまたがっている。
2段階戦略と軽量LLMに基づく新しいNER法であるCascadeNERを開発した。
- 参考スコア(独自算出の注目度): 21.1223074396331
- License:
- Abstract: With the advancement of Large Language Models (LLMs), more and more researchers apply LLMs for Named Entity Recognition (NER) methods, bringing vitality to this classical Natural Language Processing task. However, existing datasets are designed for traditional machine learning methods, inadequate for LLM-based methods in terms of corpus selection, entity categorization, and design logic. This limitation leads to less effective evaluation and model fine-tuning. To address this issue, we propose DynamicNER, the first NER dataset specifically designed for LLMs and with dynamic categorization, transcending the limitations of fixed categorization in existing datasets. It is also multi-lingual and multi-granular, covering 8 languages and 155 entity types, with corpus spanning multiple specialized domains. Furthermore, in response to the limitations demonstrated by existing LLM-based methods during DynamicNER testing, we develop CascadeNER, a novel NER method based on a two-stage strategy and lightweight LLMs, addressing the problems in current methods. Experiments show that DynamicNER is an effective benchmark for LLM-based NER methods, and CascadeNER outperforms existing methods with fewer computational resources. Our work is opened at https://github.com/CascadeNER/CascadeNER.
- Abstract(参考訳): LLM(Large Language Models)の進歩に伴い、LLMを名前付きエンティティ認識(NER)メソッドに適用する研究者が増え、この古典的な自然言語処理タスクに活力をもたらす。
しかし、既存のデータセットは従来の機械学習手法のために設計されており、コーパスの選択、エンティティの分類、設計ロジックの観点からはLLMベースの手法では不十分である。
この制限は、より効果的に評価され、微調整をモデル化する。
この問題に対処するため,我々は,LLM向けに設計された最初のNERデータセットであるDynamicNERを提案する。
また、多言語および多言語で、8言語と155のエンティティタイプをカバーし、コーパスは複数の専門ドメインにまたがる。
さらに,DynamicNER テストにおける既存の LLM 手法の限界に対応するために,2段階戦略と軽量 LLM に基づく新しい NER 手法である CascadeNER を開発した。
実験により、DynamicNERはLLMベースのNER手法の効果的なベンチマークであり、CascadeNERは計算資源が少ない既存の手法よりも優れていることが示された。
私たちの作業はhttps://github.com/CascadeNER/CascadeNERで公開されています。
関連論文リスト
- LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data [41.94295877935867]
Named Entity Recognitionタスクに特化したコンパクト言語表現モデルであるNuNERの作成方法を示す。
NuNERは、データ効率のよい方法で下流のNER問題を解決するように微調整できる。
トレーニング済みデータセットのサイズとエンティティタイプの多様性が、優れたパフォーマンスを実現するための鍵であることが分かりました。
論文 参考訳(メタデータ) (2024-02-23T14:23:51Z) - In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - GLiNER: Generalist Model for Named Entity Recognition using
Bidirectional Transformer [4.194768796374315]
名前付きエンティティ認識(NER)は、様々な自然言語処理(NLP)アプリケーションに必須である。
本稿では,任意の種類のエンティティを識別するために訓練されたコンパクトなNERモデルを提案する。
我々のモデルであるGLiNERは、Large Language Models (LLM) の遅いシーケンシャルトークン生成に対するアドバンテージである並列エンティティ抽出を容易にする。
論文 参考訳(メタデータ) (2023-11-14T20:39:12Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - One Model to Recognize Them All: Marginal Distillation from NER Models
with Different Tag Sets [30.445201832698192]
名前付きエンティティ認識(NER)は、現代の言語理解パイプラインの基本コンポーネントである。
本稿では,不均一なタグセットを持つ資源から統一NERモデルを訓練するための限界蒸留(MARDI)手法を提案する。
論文 参考訳(メタデータ) (2020-04-10T17:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。