論文の概要: Evaluation of Embedding Models for Automatic Extraction and
Classification of Acknowledged Entities in Scientific Documents
- arxiv url: http://arxiv.org/abs/2206.10939v1
- Date: Wed, 22 Jun 2022 09:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:31:49.250096
- Title: Evaluation of Embedding Models for Automatic Extraction and
Classification of Acknowledged Entities in Scientific Documents
- Title(参考訳): 学術文献における認識エンティティの自動抽出と分類のための埋め込みモデルの評価
- Authors: Nina Smirnova, Philipp Mayr
- Abstract要約: 本研究の目的は,認識エンティティの自動抽出と分類を行うタスクにおいて,異なる埋め込みモデルの性能を評価することである。
訓練は3つのデフォルトのFrair NERモデルと2つの異なる大きさのコーパスを使用して実施された。
我々のモデルは、資金提供機関、助成金番号、個人、大学、法人、雑務の6つのエンティティタイプを認識できる。
- 参考スコア(独自算出の注目度): 5.330844352905488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Acknowledgments in scientific papers may give an insight into aspects of the
scientific community, such as reward systems, collaboration patterns, and
hidden research trends. The aim of the paper is to evaluate the performance of
different embedding models for the task of automatic extraction and
classification of acknowledged entities from the acknowledgment text in
scientific papers. We trained and implemented a named entity recognition (NER)
task using the Flair NLP-framework. The training was conducted using three
default Flair NER models with two differently-sized corpora. The Flair
Embeddings model trained on the larger training corpus showed the best accuracy
of 0.77. Our model is able to recognize six entity types: funding agency, grant
number, individuals, university, corporation and miscellaneous. The model works
more precise for some entity types than the others, thus, individuals and grant
numbers showed very good F1-Score over 0.9. Most of the previous works on
acknowledgement analysis were limited by the manual evaluation of data and
therefore by the amount of processed data. This model can be applied for the
comprehensive analysis of the acknowledgement texts and may potentially make a
great contribution to the field of automated acknowledgement analysis.
- Abstract(参考訳): 科学論文の認定は、報酬システム、コラボレーションパターン、隠れた研究動向など、科学コミュニティの側面に関する洞察を与えるかもしれない。
本研究の目的は,科学論文における認識テキストから認識された実体の自動抽出と分類のタスクにおいて,異なる埋め込みモデルの性能を評価することである。
我々は、Frair NLP-frameworkを用いて、名前付きエンティティ認識(NER)タスクを訓練、実装した。
訓練は3つのデフォルトのFrair NERモデルと2つの異なる大きさのコーパスを使用して実施された。
より大きなトレーニングコーパスでトレーニングしたflairembedsモデルでは,0.77。
我々のモデルは、資金提供機関、助成金番号、個人、大学、法人、雑務の6つのエンティティタイプを認識できる。
モデルは他のモデルよりも精度が良いため、個人や許可証番号は0.9以上非常に良いF1スコアを示した。
認識分析に関するこれまでの研究のほとんどは、手動によるデータ評価や処理データの量によって制限されていた。
このモデルは、認識テキストの包括的解析に適用することができ、自動認識分析の分野に多大な貢献をする可能性がある。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Embedding Models for Supervised Automatic Extraction and Classification
of Named Entities in Scientific Acknowledgements [5.330844352905488]
本研究の目的は,認識エンティティの自動抽出と分類を行うタスクにおいて,異なる埋め込みモデルの性能を評価することである。
トレーニングは、Frair NERの3つのデフォルトモデルと4つの異なる大きさのコーパスと異なるバージョンのFlair NLPフレームワークを使用して実施された。
このモデルでは、資金提供機関、認可番号、個人、大学、企業、雑多な6つのエンティティタイプを認識できる。
論文 参考訳(メタデータ) (2023-07-25T09:51:17Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - SciRepEval: A Multi-Format Benchmark for Scientific Document
Representations [52.01865318382197]
SciRepEvalは、科学文書表現のトレーニングと評価のための最初の総合的なベンチマークである。
SPECTERやSciNCLのような最先端のモデルが、タスクフォーマットをまたいだ一般化にどのように苦労しているかを示す。
ドキュメント毎に複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-23T21:25:39Z) - Automated and Explainable Ontology Extension Based on Deep Learning: A
Case Study in the Chemical Domain [0.9449650062296822]
本稿では,大規模ドメインの自動オントロジー拡張のための新しい方法論を提案する。
我々は,ChEBIオントロジーとそれらが属するクラスから,葉ノード上のトランスフォーマーに基づくディープラーニングモデルを訓練した。
提案モデルでは,F1総合スコアが0.80となり,前回よりも6ポイント向上した。
論文 参考訳(メタデータ) (2021-09-19T19:37:08Z) - An Intelligent Hybrid Model for Identity Document Classification [0.0]
デジタル化は、生産性の向上、災害復旧、環境に優しいソリューションなどの機会とビジネスへの挑戦を提供する。
主な課題の1つは、顧客によって毎日アップロードされた多数のスキャンされたドキュメントを正確に分類することである。
画像分類の応用としてこの課題に対処する研究はほとんどない。
提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
論文 参考訳(メタデータ) (2021-06-07T13:08:00Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。