論文の概要: NanoNER: Named Entity Recognition for nanobiology using experts'
knowledge and distant supervision
- arxiv url: http://arxiv.org/abs/2402.03362v1
- Date: Tue, 30 Jan 2024 09:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 15:25:49.581287
- Title: NanoNER: Named Entity Recognition for nanobiology using experts'
knowledge and distant supervision
- Title(参考訳): nanoner: 専門家の知識と遠隔監視によるナノバイオロジーのための名前付きエンティティ認識
- Authors: Martin Lentschat (SIGMA, GETALP), Cyril Labb\'e (LIG, SIGMA), Ran
Cheng (LIG, SIGMA)
- Abstract要約: ナノバイオロジーのための名前付きエンティティ認識モデルであるNanoNERのトレーニングと評価について述べる。
本モデルの目的は,これまでドメインの専門家が認識していたエンティティを,ドメインの本質的な知識を構成するものとして認識することである。
728のフルテキストナノバイオロジー論文の全コーパスにおいて、NanoNERは、既知物質の認識に関するF1スコア0.98を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Here we present the training and evaluation of NanoNER, a Named Entity
Recognition (NER) model for Nanobiology. NER consists in the identification of
specific entities in spans of unstructured texts and is often a primary task in
Natural Language Processing (NLP) and Information Extraction. The aim of our
model is to recognise entities previously identified by domain experts as
constituting the essential knowledge of the domain. Relying on ontologies,
which provide us with a domain vocabulary and taxonomy, we implemented an
iterative process enabling experts to determine the entities relevant to the
domain at hand. We then delve into the potential of distant supervision
learning in NER, supporting how this method can increase the quantity of
annotated data with minimal additional manpower. On our full corpus of 728
full-text nanobiology articles, containing more than 120k entity occurrences,
NanoNER obtained a F1-score of 0.98 on the recognition of previously known
entities. Our model also demonstrated its ability to discover new entities in
the text, with precision scores ranging from 0.77 to 0.81. Ablation experiments
further confirmed this and allowed us to assess the dependency of our approach
on the external resources. It highlighted the dependency of the approach to the
resource, while also confirming its ability to rediscover up to 30% of the
ablated terms. This paper details the methodology employed, experimental
design, and key findings, providing valuable insights and directions for future
related researches on NER in specialized domain. Furthermore, since our
approach require minimal manpower , we believe that it can be generalized to
other specialized fields.
- Abstract(参考訳): 本稿では,ナノバイオロジーのための名前付きエンティティ認識(NER)モデルであるNanoNERのトレーニングと評価について述べる。
NERは、構造化されていないテキストの範囲内で特定のエンティティを識別し、自然言語処理(NLP)や情報抽出において主要なタスクであることが多い。
本モデルの目的は,これまでドメインの専門家が認識していたエンティティを,ドメインの本質的な知識を構成するものとして認識することである。
ドメインの語彙と分類を提供するオントロジーに基づいて、専門家が目前にあるドメインに関連するエンティティを決定するための反復的なプロセスを実行しました。
次に,nerにおける遠隔監督学習の可能性について検討し,この手法が最小限のマンパワーでアノテートデータの量を増やす方法をサポートする。
120k以上の物質を含む728個の全文ナノバイオロジー論文のフルコーパスにおいて,NanoNERは既知物質の認識に関するF1スコア0.98を得た。
また,本モデルでは,0.77から0.81までの精度で,テキスト中の新しい実体を発見する能力を示した。
アブレーション実験はさらにこれを確認し,外部資源へのアプローチの依存度を評価することができた。
リソースへのアプローチの依存性を強調しながら、アブレーションされた用語の最大30%を再発見する能力も確認した。
本稿では,NERの専門領域における今後の研究に有用な知見と方向性を提供するとともに,その方法論,実験設計,重要な知見を詳述する。
さらに,本手法は最小限のマンパワーを必要とするため,他の専門分野に一般化できると考えている。
関連論文リスト
- Diagnostic Reasoning in Natural Language: Computational Model and Application [68.47402386668846]
言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。
パール構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。
得られたデータセットを用いて,NL-DARにおける人間の意思決定過程を解析する。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - Knowledge AI: Fine-tuning NLP Models for Facilitating Scientific Knowledge Extraction and Understanding [0.0]
本研究は,Large Language Models (LLMs) の,特定の領域における科学的知識の理解と抽出における有効性について検討する。
トレーニング済みのモデルを採用し、科学領域のデータセットを微調整します。
論文 参考訳(メタデータ) (2024-08-04T01:32:09Z) - BioMNER: A Dataset for Biomedical Method Entity Recognition [25.403593761614424]
本稿では,生物医学的手法による実体認識のための新しいデータセットを提案する。
我々は、人間のアノテーションを支援するために、自動的なBioMethodエンティティ認識と情報検索システムを採用している。
実験の結果,言語モデルのパラメータ数が大きくなると,実体抽出パターンの有効同化が著しく阻害されることが判明した。
論文 参考訳(メタデータ) (2024-06-28T16:34:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Extrinsic Factors Affecting the Accuracy of Biomedical NER [0.1529342790344802]
バイオメディカル・ネーム・エンティティ・認識(NER)は、臨床テキスト中の構造化情報を特定することを目的とした批判的タスクである。
バイオメディカル領域のNERは、限られたデータ可用性のために困難である。
論文 参考訳(メタデータ) (2023-05-29T15:29:49Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Computer Science Named Entity Recognition in the Open Research Knowledge
Graph [0.0]
本研究は7つの貢献中心の学術団体の集合を定義することで標準化された課題を提案する。
記事のタイトルや要約から、何千ものコントリビューション中心のエンティティアノテーションを提供する。
また、一般的なドメインNERタスクから、最先端のニューラルアーキテクチャにインスパイアされたCS NERモデルをラベル付けするシーケンスをトレーニングする。
論文 参考訳(メタデータ) (2022-03-28T08:44:43Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。