論文の概要: Pattern-based Acquisition of Scientific Entities from Scholarly Article
Titles
- arxiv url: http://arxiv.org/abs/2109.00199v1
- Date: Wed, 1 Sep 2021 05:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 18:15:05.902025
- Title: Pattern-based Acquisition of Scientific Entities from Scholarly Article
Titles
- Title(参考訳): 学術論文タイトルからの科学的実体のパターンベース取得
- Authors: Jennifer D'Souza and Soeren Auer
- Abstract要約: 本稿では,学術論文のタイトルから科学的実体を自動的に取得するためのルールベースのアプローチについて述べる。
我々は容易に認識可能なレキシコシンタクティックパターンの集合を同定する。
取得アルゴリズムのサブセットは、計算言語学(CL)学術領域の論文タイトルに対して実装される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a rule-based approach for the automatic acquisition of scientific
entities from scholarly article titles. Two observations motivated the
approach: (i) noting the concentration of an article's contribution information
in its title; and (ii) capturing information pattern regularities via a system
of rules that alleviate the human annotation task in creating gold standards
that annotate single instances at a time. We identify a set of lexico-syntactic
patterns that are easily recognizable, that occur frequently, and that
generally indicates the scientific entity type of interest about the scholarly
contribution.
A subset of the acquisition algorithm is implemented for article titles in
the Computational Linguistics (CL) scholarly domain. The tool called
ORKG-Title-Parser, in its first release, identifies the following six concept
types of scientific terminology from the CL paper titles, viz. research
problem, solution, resource, language, tool, and method. It has been
empirically evaluated on a collection of 50,237 titles that cover nearly all
articles in the ACL Anthology. It has extracted 19,799 research problems;
18,111 solutions; 20,033 resources; 1,059 languages; 6,878 tools; and 21,687
methods at an average extraction precision of 75%. The code and related data
resources are publicly available at
https://gitlab.com/TIBHannover/orkg/orkg-title-parser.
Finally, in the article, we discuss extensions and applications to areas such
as scholarly knowledge graph (SKG) creation.
- Abstract(参考訳): 本稿では,学術論文のタイトルから科学的実体を自動的に取得するための規則に基づくアプローチについて述べる。
i) 記事のコントリビューション情報のタイトルへの含意を記入すること,(ii) 一度に単一インスタンスに注釈を付けるゴールドスタンダードを作成する際に,人間のアノテーションタスクを緩和するルールの体系を通じて情報パターンの規則性を取得すること,の2つの観察がアプローチの動機となった。
我々は, 容易に認識でき, 頻発するレキシコ合成パターンの組を同定し, 一般に学術的貢献に対する科学的実体タイプを示す。
取得アルゴリズムのサブセットは、計算言語学(CL)学術領域の論文タイトルに対して実装される。
ORKG-Title-Parserと呼ばれるツールは、最初のリリースで、CL論文のタイトルであるvizから以下の6種類の科学的用語を識別する。
研究課題、ソリューション、リソース、言語、ツール、および方法。
ACLアンソロジーのほぼ全ての記事をカバーする50,237タイトルのコレクションで実証的に評価されている。
調査問題19,799件、ソリューション18,111件、リソース20,033件、言語1,059件、ツール6,878件、メソッド21,687件を抽出した。
コードと関連するデータリソースはhttps://gitlab.com/TIBHannover/orkg/orkg-title-parserで公開されている。
最後に,本稿では,学術知識グラフ(skg)作成などの分野への拡張と応用について論じる。
関連論文リスト
- SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Object Recognition from Scientific Document based on Compartment Refinement Framework [2.699900017799093]
膨大な資源から貴重な情報を効率的に抽出することがますます重要になっている。
科学文書の現在のデータ抽出方法は、ルールベース(RB)または機械学習(ML)アプローチを用いるのが一般的である。
我々はCTBR(Compartment & Text Blocks Refinement)と呼ばれる新しい文書レイアウト分析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T15:36:49Z) - DiscoverPath: A Knowledge Refinement and Retrieval System for
Interdisciplinarity on Biomedical Research [96.10765714077208]
従来のキーワードベースの検索エンジンは、特定の用語に慣れていないユーザーを支援するのに不足している。
本稿では, バイオメディカル研究のための知識グラフに基づく紙検索エンジンを提案し, ユーザエクスペリエンスの向上を図る。
DiscoverPathと呼ばれるこのシステムは、名前付きエンティティ認識(NER)とPOSタグを使って、記事の要約から用語や関係を抽出し、KGを作成する。
論文 参考訳(メタデータ) (2023-09-04T20:52:33Z) - A Framework For Refining Text Classification and Object Recognition from Academic Articles [2.699900017799093]
現在の学術論文のデータマイニング手法はルールベース(RB)または機械学習(ML)アプローチを採用している。
我々は,機械学習とルールベースのスキームハイブリッドであるテクストブロックリファインメントフレームワーク(TBRF)を開発した。
論文 参考訳(メタデータ) (2023-05-27T07:59:49Z) - MORTY: Structured Summarization for Targeted Information Extraction from
Scholarly Articles [0.0]
学術論文からテキストの構造化要約を生成する情報抽出手法MORTYを提案する。
我々のアプローチは、構造化要約と呼ばれるセグメント化されたテキストスニペットとして、記事の全文とプロパティと値のペアを凝縮する。
また,学術知識グラフから検索した構造化サマリーと,それに対応する公開可能な科学論文を組み合わせた,規模の高い学術データセットも提示する。
論文 参考訳(メタデータ) (2022-12-11T06:49:29Z) - arXivEdits: Understanding the Human Revision Process in Scientific
Writing [17.63505461444103]
論文執筆におけるテキストリビジョン研究のための完全な計算フレームワークを提供する。
最初にarXivEditsを紹介した。これは、arXivの751個の全文からなる注釈付きコーパスで、複数のバージョンにまたがってゴールドの文をアライメントする。
データ駆動分析をサポートし、論文の改訂のために研究者が実践する一般的な戦略を明らかにします。
論文 参考訳(メタデータ) (2022-10-26T22:50:24Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。