論文の概要: TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics
- arxiv url: http://arxiv.org/abs/2101.10273v1
- Date: Mon, 25 Jan 2021 17:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 01:19:53.260483
- Title: TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics
- Title(参考訳): TDMSci: タスクデータセットとメトリクスの科学文献エンティティタグ付けに特化したコーパス
- Authors: Yufang Hou, Charles Jochim, Martin Gleize, Francesca Bonin and Debasis
Ganguly
- Abstract要約: NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
- 参考スコア(独自算出の注目度): 32.4845534482475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks, Datasets and Evaluation Metrics are important concepts for
understanding experimental scientific papers. However, most previous work on
information extraction for scientific literature mainly focuses on the
abstracts only, and does not treat datasets as a separate type of entity (Zadeh
and Schumann, 2016; Luan et al., 2018). In this paper, we present a new corpus
that contains domain expert annotations for Task (T), Dataset (D), Metric (M)
entities on 2,000 sentences extracted from NLP papers. We report experiment
results on TDM extraction using a simple data augmentation strategy and apply
our tagger to around 30,000 NLP papers from the ACL Anthology. The corpus is
made publicly available to the community for fostering research on scientific
publication summarization (Erera et al., 2019) and knowledge discovery.
- Abstract(参考訳): 課題,データセット,評価メトリクスは,実験科学論文を理解する上で重要な概念である。
しかし、科学文献のための情報抽出に関するこれまでの研究は主に抽象論のみに焦点を当てており、データセットを別のタイプの実体として扱うことはない(Zadeh and Schumann, 2016; Luan et al., 2018)。
本稿では,NLP論文から抽出した2000文に対して,タスク(T),データセット(D),メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し, aclアンソロジーから約30,000のnlp論文に適用した。
コーパスは、科学出版の要約(Erera et al., 2019)と知識発見の研究を促進するために、コミュニティに公開されている。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - TSTR: Too Short to Represent, Summarize with Details! Intro-Guided
Extended Summary Generation [22.738731393540633]
学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。
本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文 参考訳(メタデータ) (2022-06-02T02:45:31Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。