論文の概要: Lessons from Deep Learning applied to Scholarly Information Extraction:
What Works, What Doesn't, and Future Directions
- arxiv url: http://arxiv.org/abs/2207.04029v1
- Date: Fri, 8 Jul 2022 17:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:50:48.819216
- Title: Lessons from Deep Learning applied to Scholarly Information Extraction:
What Works, What Doesn't, and Future Directions
- Title(参考訳): 情報抽出における深層学習からの教訓:何が機能するか,何ができないのか,そして今後の方向性
- Authors: Raquib Bin Yousuf, Subhodip Biswas, Kulendra Kumar Kaushal, James
Dunham, Rebecca Gelles, Sathappan Muthiah, Nathan Self, Patrick Butler, Naren
Ramakrishnan
- Abstract要約: EneRexは、コンピュータ科学の分野における大規模なデータセットから、どのようにして重要な洞察を抽出できるかを示す。
既存のデータセットがキャパシティに制限されていること、EneRexが既存のナレッジグラフにどのように適合するかを強調します。
- 参考スコア(独自算出の注目度): 12.62863659147376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding key insights from full-text scholarly articles is essential as
it enables us to determine interesting trends, give insight into the research
and development, and build knowledge graphs. However, some of the interesting
key insights are only available when considering full-text. Although
researchers have made significant progress in information extraction from short
documents, extraction of scientific entities from full-text scholarly
literature remains a challenging problem. This work presents an automated
End-to-end Research Entity Extractor called EneRex to extract technical facets
such as dataset usage, objective task, method from full-text scholarly research
articles. Additionally, we extracted three novel facets, e.g., links to source
code, computing resources, programming language/libraries from full-text
articles. We demonstrate how EneRex is able to extract key insights and trends
from a large-scale dataset in the domain of computer science. We further test
our pipeline on multiple datasets and found that the EneRex improves upon a
state of the art model. We highlight how the existing datasets are limited in
their capacity and how EneRex may fit into an existing knowledge graph. We also
present a detailed discussion with pointers for future research. Our code and
data are publicly available at
https://github.com/DiscoveryAnalyticsCenter/EneRex.
- Abstract(参考訳): 学術論文から重要な洞察を理解することは、興味深い傾向を判断し、研究と開発についての洞察を与え、知識グラフを構築するために不可欠である。
しかし、興味深い重要な洞察のいくつかは、フルテキストを考える場合にのみ利用できる。
研究者は短い文書から情報抽出を著しく進歩させてきたが、フルテキストの学術文献から科学的実体を抽出することは難しい問題である。
本研究はEneRexと呼ばれるエンドツーエンドのエンティティエクストラクタを自動で作成し,データセットの使用状況,目的タスク,手法などの技術的側面をフルテキストの学術論文から抽出する。
さらに,ソースコードへのリンク,計算リソース,プログラム言語/ライブラリの3つの新しいファセットを全文記事から抽出した。
計算機科学分野における大規模データセットから,EneRexが重要な洞察と傾向を抽出する方法を実証する。
さらに、複数のデータセットでパイプラインをテストした結果、enerexがアートモデルの状態を改善できることが分かりました。
既存のデータセットがキャパシティに制限されていることや、enerexが既存のナレッジグラフにどのように適合するかを強調する。
また,今後の研究に向けて,ポインタに関する詳細な議論を行う。
私たちのコードとデータはhttps://github.com/DiscoveryAnalyticsCenter/EneRexで公開されています。
関連論文リスト
- MatViX: Multimodal Information Extraction from Visually Rich Articles [6.349779979863784]
材料科学では、研究論文から構造化情報を抽出することで、新しい素材の発見を加速することができる。
textscMatViXは、324ドルのフル長の調査記事と1688ドルの複雑な構造化ファイルからなるベンチマークです。
これらのファイルは、テキスト、テーブル、フィギュアからフル長の文書から抽出され、MIEにとって包括的な課題となる。
論文 参考訳(メタデータ) (2024-10-27T16:13:58Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science [4.120803087965204]
本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその接続を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。
この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-03-03T20:31:04Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - MORTY: Structured Summarization for Targeted Information Extraction from
Scholarly Articles [0.0]
学術論文からテキストの構造化要約を生成する情報抽出手法MORTYを提案する。
我々のアプローチは、構造化要約と呼ばれるセグメント化されたテキストスニペットとして、記事の全文とプロパティと値のペアを凝縮する。
また,学術知識グラフから検索した構造化サマリーと,それに対応する公開可能な科学論文を組み合わせた,規模の高い学術データセットも提示する。
論文 参考訳(メタデータ) (2022-12-11T06:49:29Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - How to Train Your Agent to Read and Write [52.24605794920856]
研究論文の読み書きは、資格のある研究者が習得すべき最も特権のある能力の1つである。
読者が論文を読み、要約できるようにインテリジェントなエージェントを訓練し、おそらく新しい論文を書くための潜在的な知識の手がかりを発見し、活用できれば、それは魅力的です。
本研究では,入力段落から知識グラフ(KG)を抽出して潜在的な知識を発見できるtextitReader,新規段落を生成するgraph-to-text TextitWriter,およびtextitから構成されるDeep ReAder-Writer(DRAW)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T12:22:04Z) - Generating Knowledge Graphs by Employing Natural Language Processing and
Machine Learning Techniques within the Scholarly Domain [1.9004296236396943]
本稿では、自然言語処理と機械学習を利用して研究論文から実体や関係を抽出する新しいアーキテクチャを提案する。
本研究では,現在最先端の自然言語処理ツールとテキストマイニングツールを用いて,知識抽出の課題に取り組む。
セマンティックWebドメイン内の論文26,827件から抽出した109,105件のトリプルを含む科学知識グラフを作成した。
論文 参考訳(メタデータ) (2020-10-28T08:31:40Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。