Fugu-MT 論文翻訳(概要): TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of Tasks Datasets and Metrics

論文の概要: TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of Tasks Datasets and Metrics

arxiv url: http://arxiv.org/abs/2101.10273v1
Date: Mon, 25 Jan 2021 17:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-15 01:19:53.260483
Title: TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of Tasks Datasets and Metrics
Title（参考訳）: TDMSci: タスクデータセットとメトリクスの科学文献エンティティタグ付けに特化したコーパス
Authors: Yufang Hou, Charles Jochim, Martin Gleize, Francesca Bonin and Debasis Ganguly
Abstract要約: NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
参考スコア（独自算出の注目度）: 32.4845534482475
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tasks, Datasets and Evaluation Metrics are important concepts for understanding experimental scientific papers. However, most previous work on information extraction for scientific literature mainly focuses on the abstracts only, and does not treat datasets as a separate type of entity (Zadeh and Schumann, 2016; Luan et al., 2018). In this paper, we present a new corpus that contains domain expert annotations for Task (T), Dataset (D), Metric (M) entities on 2,000 sentences extracted from NLP papers. We report experiment results on TDM extraction using a simple data augmentation strategy and apply our tagger to around 30,000 NLP papers from the ACL Anthology. The corpus is made publicly available to the community for fostering research on scientific publication summarization (Erera et al., 2019) and knowledge discovery.
Abstract（参考訳）: 課題,データセット,評価メトリクスは,実験科学論文を理解する上で重要な概念である。しかし、科学文献のための情報抽出に関するこれまでの研究は主に抽象論のみに焦点を当てており、データセットを別のタイプの実体として扱うことはない(Zadeh and Schumann, 2016; Luan et al., 2018)。本稿では,NLP論文から抽出した2000文に対して,タスク(T),データセット(D),メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し, aclアンソロジーから約30,000のnlp論文に適用した。コーパスは、科学出版の要約(Erera et al., 2019)と知識発見の研究を促進するために、コミュニティに公開されている。

関連論文リスト

Measuring the State of Open Science in Transportation Using Large Language Models [8.915048816245394]
オープンサイエンスのイニシアチブは、科学の完全性を強化し、多くの分野における研究の進歩を加速してきた。オープンサイエンスの主要な特徴は、ここではデータとコードの可用性として定義されており、フィールド固有の複雑さのために抽出するのが困難である。本稿では,交通研究におけるデータとコード可用性を計測する,自動かつスケーラブルな特徴抽出パイプラインを提案する。
論文参考訳（メタデータ） (2026-01-20T19:39:52Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文参考訳（メタデータ） (2024-06-10T15:19:09Z)
All Data on the Table: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文参考訳（メタデータ） (2023-11-14T14:22:47Z)
TSTR: Too Short to Represent, Summarize with Details! Intro-Guided Extended Summary Generation [22.738731393540633]
学術文献など、原文が比較的長い領域では、そのような要約は一般的で粗い概観を超越することはできない。本稿では,文書の紹介情報を利用した抽出要約器TSTRを提案する。
論文参考訳（メタデータ） (2022-06-02T02:45:31Z)
LDKP: A Dataset for Identifying Keyphrases from Long Scientific Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文参考訳（メタデータ） (2022-03-29T08:44:57Z)
CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (2021-06-03T03:00:12Z)
What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文参考訳（メタデータ） (2020-11-06T02:23:01Z)
Topic-Centric Unsupervised Multi-Document Summarization of Scientific and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文参考訳（メタデータ） (2020-11-03T04:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。