論文の概要: Is 'Hope' a person or an idea? A pilot benchmark for NER: comparing traditional NLP tools and large language models on ambiguous entities
- arxiv url: http://arxiv.org/abs/2509.12098v1
- Date: Mon, 15 Sep 2025 16:21:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.396661
- Title: Is 'Hope' a person or an idea? A pilot benchmark for NER: comparing traditional NLP tools and large language models on ambiguous entities
- Title(参考訳): ホップは人かアイデアか? NERのパイロットベンチマーク--従来のNLPツールと曖昧なエンティティ上の大規模言語モデルの比較
- Authors: Payam Latifi,
- Abstract要約: このパイロットスタディでは、6つのシステムにまたがる名前付きエンティティ認識(NER)性能の小規模ながら慎重に注釈付けされたベンチマークを示す。
F1スコアを用いて,手動でアノテートした金標準データセットに対して,各システムの出力を評価した。
LLMは一般的に、人名のような文脈に敏感なエンティティを認識する従来のツールよりも優れており、ジェミニは平均的なF1スコアを達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This pilot study presents a small-scale but carefully annotated benchmark of Named Entity Recognition (NER) performance across six systems: three non-LLM NLP tools (NLTK, spaCy, Stanza) and three general-purpose large language models (LLMs: Gemini-1.5-flash, DeepSeek-V3, Qwen-3-4B). The dataset contains 119 tokens covering five entity types (PERSON, LOCATION, ORGANIZATION, DATE, TIME). We evaluated each system's output against the manually annotated gold standard dataset using F1-score. The results show that LLMs generally outperform conventional tools in recognizing context-sensitive entities like person names, with Gemini achieving the highest average F1-score. However, traditional systems like Stanza demonstrate greater consistency in structured tags such as LOCATION and DATE. We also observed variability among LLMs, particularly in handling temporal expressions and multi-word organizations. Our findings highlight that while LLMs offer improved contextual understanding, traditional tools remain competitive in specific tasks, informing model selection.
- Abstract(参考訳): このパイロットスタディでは,3つの非LLM NLPツール (NLTK, spaCy, Stanza) と3つの汎用大規模言語モデル (LLM: Gemini-1.5-flash, DeepSeek-V3, Qwen-3-4B) の6つのシステムを対象とした,名前付きエンティティ認識 (NER) 性能の小規模かつ注意深いベンチマークを示す。
データセットには、5つのエンティティタイプ(PERSON、LOOCATION、ORGANIZATION、DATE、TIME)をカバーする119のトークンが含まれている。
F1スコアを用いて,手動でアノテートした金標準データセットに対して,各システムの出力を評価した。
その結果、LLMは人名のような文脈に敏感なエンティティを認識する従来のツールよりも優れており、ジェミニは平均的なF1スコアを達成した。
しかし、Stanzaのような従来のシステムはLOCATIONやDATEのような構造化タグでより一貫性を示す。
また,LLM間の変動,特に時間的表現や複数単語の組織を扱う場合も観察した。
LLMは文脈理解の改善を提供するが、従来のツールは特定のタスクにおいて競争力を維持し、モデル選択を通知する。
関連論文リスト
- Evaluating Large Language Models as Expert Annotators [17.06186816803593]
本稿では,トップパフォーマンス言語モデルが,人間の専門家アノテータの直接的な代替として機能するかどうかを考察する。
我々は、金融、バイオメディシン、法という3つの専門分野にまたがる個別のLCMとマルチエージェントのアプローチを評価した。
実験結果から,推定時間的手法を具備した個々のLSMは,限界あるいは負の利得しか示さないことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-11T10:19:10Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Label-Guided In-Context Learning for Named Entity Recognition [14.63059248497416]
In-context Learning (ICL) では、大規模な言語モデルで新しいタスクを実行することができる。
トークンレベルの統計情報を用いてトレーニングラベルを活用する新しい手法であるDEERを導入し、ICLの性能を向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:54:32Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - ELLEN: Extremely Lightly Supervised Learning For Efficient Named Entity Recognition [18.884124657093405]
ELENは,微調整言語モデルと言語規則をブレンドした,シンプルで完全にモジュール化されたニューロシンボリックな手法である。
ELLENはCoNLL-2003データセット上で非常に強力なパフォーマンスを実現している。
ゼロショット設定では、ELENは金のデータに基づいてトレーニングされた強力で完全な教師付きモデルの75%以上の性能を達成する。
論文 参考訳(メタデータ) (2024-03-26T05:11:51Z) - In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。