論文の概要: Detecting Entities in the Astrophysics Literature: A Comparison of
Word-based and Span-based Entity Recognition Methods
- arxiv url: http://arxiv.org/abs/2211.13819v1
- Date: Thu, 24 Nov 2022 23:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:08:32.691850
- Title: Detecting Entities in the Astrophysics Literature: A Comparison of
Word-based and Span-based Entity Recognition Methods
- Title(参考訳): 天体物理学文献における実体検出 : 単語ベースとスパンベースのエンティティ認識法の比較
- Authors: Xiang Dai and Sarvnaz Karimi
- Abstract要約: 本稿では,DeAL(Detecting Entities in the Astrophysics Literature)共有タスクの一部として開発されたエンティティ認識手法について述べる。
本研究の目的は、天体物理学の学術論文からなるデータセットにおいて、名前付きエンティティを識別できるシステムを構築することである。
- 参考スコア(独自算出の注目度): 20.506920012146235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Extraction from scientific literature can be challenging due to
the highly specialised nature of such text. We describe our entity recognition
methods developed as part of the DEAL (Detecting Entities in the Astrophysics
Literature) shared task. The aim of the task is to build a system that can
identify Named Entities in a dataset composed by scholarly articles from
astrophysics literature. We planned our participation such that it enables us
to conduct an empirical comparison between word-based tagging and span-based
classification methods. When evaluated on two hidden test sets provided by the
organizer, our best-performing submission achieved $F_1$ scores of 0.8307
(validation phase) and 0.7990 (testing phase).
- Abstract(参考訳): 科学文献からの情報抽出は、そのような文章の高度に専門化された性質のために困難である。
本稿では,DeAL(Detecting Entities in the Astrophysics Literature)共有タスクの一部として開発されたエンティティ認識手法について述べる。
本研究の目的は、天体物理学の学術論文からなるデータセットにおいて、名前付きエンティティを識別できるシステムを構築することである。
我々は,単語ベースのタグ付けとスパンベースの分類手法を実証的に比較できるように,参加を計画した。
オーガナイザが提供した2つの隠れテストセットで評価すると、最高の成果が0.8307(検証フェーズ)と0.7990(テストフェーズ)のF_1$スコアを得た。
関連論文リスト
- Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Improve Text Classification Accuracy with Intent Information [0.38073142980733]
既存の手法ではラベル情報の利用を考慮せず、トークンを意識したシナリオではテキスト分類システムの性能が低下する可能性がある。
本稿では,テキスト分類タスクのラベル埋め込みとしてラベル情報を導入し,ベンチマークデータセット上での顕著な性能を実現する。
論文 参考訳(メタデータ) (2022-12-15T08:15:32Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。
本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文 参考訳(メタデータ) (2022-09-29T15:14:42Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - On the Impact of Knowledge-based Linguistic Annotations in the Quality
of Scientific Embeddings [0.0]
我々は, 科学的コーパスから埋め込みを生成するために, 明示的な言語アノテーションを用いた研究を行う。
以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。
一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。
論文 参考訳(メタデータ) (2021-04-13T13:51:22Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources [8.54082916181163]
STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
論文 参考訳(メタデータ) (2020-03-02T16:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。