Fugu-MT 論文翻訳(概要): Detecting Entities in the Astrophysics Literature: A Comparison of Word-based and Span-based Entity Recognition Methods

論文の概要: Detecting Entities in the Astrophysics Literature: A Comparison of Word-based and Span-based Entity Recognition Methods

arxiv url: http://arxiv.org/abs/2211.13819v1
Date: Thu, 24 Nov 2022 23:07:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 16:08:32.691850
Title: Detecting Entities in the Astrophysics Literature: A Comparison of Word-based and Span-based Entity Recognition Methods
Title（参考訳）: 天体物理学文献における実体検出 : 単語ベースとスパンベースのエンティティ認識法の比較
Authors: Xiang Dai and Sarvnaz Karimi
Abstract要約: 本稿では,DeAL(Detecting Entities in the Astrophysics Literature)共有タスクの一部として開発されたエンティティ認識手法について述べる。本研究の目的は、天体物理学の学術論文からなるデータセットにおいて、名前付きエンティティを識別できるシステムを構築することである。
参考スコア（独自算出の注目度）: 20.506920012146235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Information Extraction from scientific literature can be challenging due to the highly specialised nature of such text. We describe our entity recognition methods developed as part of the DEAL (Detecting Entities in the Astrophysics Literature) shared task. The aim of the task is to build a system that can identify Named Entities in a dataset composed by scholarly articles from astrophysics literature. We planned our participation such that it enables us to conduct an empirical comparison between word-based tagging and span-based classification methods. When evaluated on two hidden test sets provided by the organizer, our best-performing submission achieved $F_1$ scores of 0.8307 (validation phase) and 0.7990 (testing phase).
Abstract（参考訳）: 科学文献からの情報抽出は、そのような文章の高度に専門化された性質のために困難である。本稿では,DeAL(Detecting Entities in the Astrophysics Literature)共有タスクの一部として開発されたエンティティ認識手法について述べる。本研究の目的は、天体物理学の学術論文からなるデータセットにおいて、名前付きエンティティを識別できるシステムを構築することである。我々は,単語ベースのタグ付けとスパンベースの分類手法を実証的に比較できるように,参加を計画した。オーガナイザが提供した2つの隠れテストセットで評価すると、最高の成果が0.8307(検証フェーズ)と0.7990(テストフェーズ)のF_1$スコアを得た。

関連論文リスト

Automatic Detection of Complex Quotation Patterns in Aggadic Literature [0.9476463361600828]
本稿では,ラビ語文学における聖書引用の自動検出のための新しい3段階アルゴリズムACTを提案する。提案手法は,Dicta,Passim,Text-Matcher,および人間注釈クリティカルエディションなど,主要なシステムに対して評価された。引用検出の改善に加えて、コーパスをまたいでスタイリスティックなパターンを分類するACTの能力は、ジャンル分類とテクスト間分析のための新しい道を開く。
論文参考訳（メタデータ） (2025-12-29T14:45:58Z)
Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering [59.54662810933882]
既存の分類体系の構築手法は、教師なしクラスタリングや大きな言語モデルの直接的プロンプトを利用しており、コヒーレンスと粒度の欠如が多かった。 LLM誘導型マルチアスペクト符号化と動的クラスタリングを統合したコンテキスト対応階層型階層型分類生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T15:12:58Z)
A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora [6.384357773998868]
Sci-OGは研究トピックを生成するための半自動的な方法論である。本稿では,研究トピックを生成するための半自動設計手法であるSci-OGを提案する。提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
論文参考訳（メタデータ） (2025-08-06T08:48:14Z)
Science Hierarchography: Hierarchical Organization of Science Literature [20.182213614072836]
我々は、科学文献を高品質な階層構造に整理する目的であるSCIENCE HARCHOGRAPHYを動機付けている。我々は,SCIENCE HIERARCHOGRAPHYの目標を達成するために,様々なアルゴリズムを開発した。その結果、この構造化されたアプローチは解釈可能性を高め、トレンド発見をサポートし、従来の探索手法を超えて科学的文献を探索するための代替手段を提供することが示された。
論文参考訳（メタデータ） (2025-04-18T17:59:29Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
pathfinder: A Semantic Framework for Literature Review and Knowledge Discovery in Astronomy [2.6952253149772996]
Pathfinderは天文学における文献のレビューと知識発見を可能にする機械学習フレームワークである。我々のフレームワークは、LLMベースの合成と高度な検索技術を組み合わせて、意味文脈による天文学文献の検索を行う。時間に基づく重み付けスキームと引用に基づく重み付けスキームを通じて、jargon、名前付きエンティティ、時間的側面の複雑さに対処する。
論文参考訳（メタデータ） (2024-08-02T20:05:24Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
Persian Homograph Disambiguation: Leveraging ParsBERT for Enhanced Sentence Understanding with a Novel Word Disambiguation Dataset [0.0]
ペルシャのホモグラフの曖昧化に適した新しいデータセットを提案する。本研究は,コサイン類似性法による各種埋没物の徹底的な探索を含む。我々は、精度、リコール、F1スコアの観点からモデルの性能を精査する。
論文参考訳（メタデータ） (2024-05-24T14:56:36Z)
Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。臨床文献のコーパスを12種類に分類した。私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文参考訳（メタデータ） (2023-03-23T17:17:46Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文参考訳（メタデータ） (2022-09-29T15:14:42Z)
Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文参考訳（メタデータ） (2021-12-15T05:05:12Z)
CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (2021-06-03T03:00:12Z)
Semantic Analysis for Automated Evaluation of the Potential Impact of Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文参考訳（メタデータ） (2021-04-26T20:37:13Z)
On the Impact of Knowledge-based Linguistic Annotations in the Quality of Scientific Embeddings [0.0]
我々は, 科学的コーパスから埋め込みを生成するために, 明示的な言語アノテーションを用いた研究を行う。以上の結果から,組込みにおけるアノテーションの効果は評価作業によってどのように変化するかを示す。一般に,言語アノテーションを用いた埋め込み学習が,より良い評価結果の獲得に寄与すると考えられる。
論文参考訳（メタデータ） (2021-04-13T13:51:22Z)
The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources [8.54082916181163]
STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
論文参考訳（メタデータ） (2020-03-02T16:35:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。