論文の概要: TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics
- arxiv url: http://arxiv.org/abs/2101.10273v1
- Date: Mon, 25 Jan 2021 17:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 01:19:53.260483
- Title: TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics
- Title(参考訳): TDMSci: タスクデータセットとメトリクスの科学文献エンティティタグ付けに特化したコーパス
- Authors: Yufang Hou, Charles Jochim, Martin Gleize, Francesca Bonin and Debasis
Ganguly
- Abstract要約: NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
- 参考スコア(独自算出の注目度): 32.4845534482475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks, Datasets and Evaluation Metrics are important concepts for
understanding experimental scientific papers. However, most previous work on
information extraction for scientific literature mainly focuses on the
abstracts only, and does not treat datasets as a separate type of entity (Zadeh
and Schumann, 2016; Luan et al., 2018). In this paper, we present a new corpus
that contains domain expert annotations for Task (T), Dataset (D), Metric (M)
entities on 2,000 sentences extracted from NLP papers. We report experiment
results on TDM extraction using a simple data augmentation strategy and apply
our tagger to around 30,000 NLP papers from the ACL Anthology. The corpus is
made publicly available to the community for fostering research on scientific
publication summarization (Erera et al., 2019) and knowledge discovery.
- Abstract(参考訳): 課題,データセット,評価メトリクスは,実験科学論文を理解する上で重要な概念である。
しかし、科学文献のための情報抽出に関するこれまでの研究は主に抽象論のみに焦点を当てており、データセットを別のタイプの実体として扱うことはない(Zadeh and Schumann, 2016; Luan et al., 2018)。
本稿では,NLP論文から抽出した2000文に対して,タスク(T),データセット(D),メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し, aclアンソロジーから約30,000のnlp論文に適用した。
コーパスは、科学出版の要約(Erera et al., 2019)と知識発見の研究を促進するために、コミュニティに公開されている。
関連論文リスト
- All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - The SourceData-NLP dataset: integrating curation into scientific
publishing for training large language models [1.0423199374671421]
本稿では,出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。
このデータセットは、分子生物学と細胞生物学の3,223の論文で18,689個の数字から算出された、620,000以上の注釈付き生物医学的な実体を含んでいる。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Interactive Distillation of Large Single-Topic Corpora of Scientific
Papers [1.2954493726326113]
より堅牢だが時間を要するアプローチは、主題の専門家が文書を手書きするデータセットを構成的に構築することである。
ここでは,学術文献のターゲットデータセットを構築的に生成するための,機械学習に基づく新しいツールを紹介する。
論文 参考訳(メタデータ) (2023-09-19T17:18:36Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation [22.738731393540633]
学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文 参考訳(メタデータ) (2022-06-02T02:45:31Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。