論文の概要: Embedding Models for Supervised Automatic Extraction and Classification
of Named Entities in Scientific Acknowledgements
- arxiv url: http://arxiv.org/abs/2307.13377v1
- Date: Tue, 25 Jul 2023 09:51:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:36:06.957457
- Title: Embedding Models for Supervised Automatic Extraction and Classification
of Named Entities in Scientific Acknowledgements
- Title(参考訳): 科学認定における名前付きエンティティの自動抽出と分類のための埋め込みモデル
- Authors: Nina Smirnova and Philipp Mayr
- Abstract要約: 本研究の目的は,認識エンティティの自動抽出と分類を行うタスクにおいて,異なる埋め込みモデルの性能を評価することである。
トレーニングは、Frair NERの3つのデフォルトモデルと4つの異なる大きさのコーパスと異なるバージョンのFlair NLPフレームワークを使用して実施された。
このモデルでは、資金提供機関、認可番号、個人、大学、企業、雑多な6つのエンティティタイプを認識できる。
- 参考スコア(独自算出の注目度): 5.330844352905488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acknowledgments in scientific papers may give an insight into aspects of the
scientific community, such as reward systems, collaboration patterns, and
hidden research trends. The aim of the paper is to evaluate the performance of
different embedding models for the task of automatic extraction and
classification of acknowledged entities from the acknowledgment text in
scientific papers. We trained and implemented a named entity recognition (NER)
task using the Flair NLP framework. The training was conducted using three
default Flair NER models with four differently-sized corpora and different
versions of the Flair NLP framework. The Flair Embeddings model trained on the
medium corpus with the latest FLAIR version showed the best accuracy of 0.79.
Expanding the size of a training corpus from very small to medium size
massively increased the accuracy of all training algorithms, but further
expansion of the training corpus did not bring further improvement. Moreover,
the performance of the model slightly deteriorated. Our model is able to
recognize six entity types: funding agency, grant number, individuals,
university, corporation, and miscellaneous. The model works more precisely for
some entity types than for others; thus, individuals and grant numbers showed a
very good F1-Score over 0.9. Most of the previous works on acknowledgment
analysis were limited by the manual evaluation of data and therefore by the
amount of processed data. This model can be applied for the comprehensive
analysis of acknowledgment texts and may potentially make a great contribution
to the field of automated acknowledgment analysis.
- Abstract(参考訳): 科学論文の認定は、報酬システム、コラボレーションパターン、隠れた研究動向など、科学コミュニティの側面に関する洞察を与えるかもしれない。
本研究の目的は,科学論文における認識テキストから認識された実体の自動抽出と分類のタスクにおいて,異なる埋め込みモデルの性能を評価することである。
我々はFrair NLPフレームワークを用いて、名前付きエンティティ認識(NER)タスクを訓練、実装した。
トレーニングは、Frair NERの3つのデフォルトモデルと4つの異なるサイズのコーパスと異なるバージョンのFlair NLPフレームワークを使用して実施された。
フラワー・エンベディングス・モデルは、最新のFLAIRバージョンで中型コーパスで訓練され、0.79の精度を示した。
トレーニングコーパスのサイズを極小から中小に拡大すると、全てのトレーニングアルゴリズムの精度が大幅に向上するが、トレーニングコーパスのさらなる拡張は改善には至らなかった。
さらに,モデルの性能はわずかに低下した。
我々のモデルは、資金提供機関、認可番号、個人、大学、企業、雑多な6つのエンティティタイプを認識できる。
モデルは、他のものよりもより正確に機能するので、個人と付与された数値は、0.9以上で非常に良いF1スコアを示した。
先行研究の多くは手動によるデータ評価や処理データの量によって制限されていた。
このモデルは、認識テキストの包括的分析に応用することができ、自動認識分析の分野に大きな貢献をする可能性がある。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Exploring the Effectiveness of Methods for Persona Extraction [0.0]
本稿では,対話参加者に関する情報を抽出し,そのパフォーマンスをロシア語で評価する手法について検討する。
このタスクのモデルをトレーニングするために、Multi-Session Chatデータセットは複数の翻訳モデルを使用してロシア語に翻訳された。
抽出モデルの有効性を評価するために,Fスコアの概念に基づく計量を示す。
論文 参考訳(メタデータ) (2024-07-12T11:30:10Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Evaluation of Embedding Models for Automatic Extraction and
Classification of Acknowledged Entities in Scientific Documents [5.330844352905488]
本研究の目的は,認識エンティティの自動抽出と分類を行うタスクにおいて,異なる埋め込みモデルの性能を評価することである。
訓練は3つのデフォルトのFrair NERモデルと2つの異なる大きさのコーパスを使用して実施された。
我々のモデルは、資金提供機関、助成金番号、個人、大学、法人、雑務の6つのエンティティタイプを認識できる。
論文 参考訳(メタデータ) (2022-06-22T09:32:28Z) - Automated and Explainable Ontology Extension Based on Deep Learning: A
Case Study in the Chemical Domain [0.9449650062296822]
本稿では,大規模ドメインの自動オントロジー拡張のための新しい方法論を提案する。
我々は,ChEBIオントロジーとそれらが属するクラスから,葉ノード上のトランスフォーマーに基づくディープラーニングモデルを訓練した。
提案モデルでは,F1総合スコアが0.80となり,前回よりも6ポイント向上した。
論文 参考訳(メタデータ) (2021-09-19T19:37:08Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。