論文の概要: unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network
- arxiv url: http://arxiv.org/abs/2303.14957v1
- Date: Mon, 27 Mar 2023 07:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:35:52.215164
- Title: unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network
- Title(参考訳): unarxive 2022: 構造化フルテキストと引用ネットワークを含む、nlpのために前処理されたすべてのarxiv出版物
- Authors: Tarek Saier and Johan Krause and Michael F\"arber
- Abstract要約: 我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale data sets on scholarly publications are the basis for a variety
of bibliometric analyses and natural language processing (NLP) applications.
Especially data sets derived from publication's full-text have recently gained
attention. While several such data sets already exist, we see key shortcomings
in terms of their domain and time coverage, citation network completeness, and
representation of full-text content. To address these points, we propose a new
version of the data set unarXive. We base our data processing pipeline and
output format on two existing data sets, and improve on each of them. Our
resulting data set comprises 1.9 M publications spanning multiple disciplines
and 32 years. It furthermore has a more complete citation network than its
predecessors and retains a richer representation of document structure as well
as non-textual publication content such as mathematical notation. In addition
to the data set, we provide ready-to-use training/test data for citation
recommendation and IMRaD classification. All data and source code is publicly
available at https://github.com/IllDepence/unarXive.
- Abstract(参考訳): 学術出版物に基づく大規模データセットは、様々な書誌分析および自然言語処理(nlp)アプリケーションの基礎となっている。
特に出版物のフルテキストから派生したデータセットが最近注目を集めている。
このようなデータセットはすでにいくつか存在するが、ドメインと時間カバレッジ、引用ネットワークの完全性、フルテキストコンテンツの表現に関して重要な欠点がある。
これらの点に対処するため、unarXiveというデータセットの新バージョンを提案する。
私たちは、データ処理パイプラインと出力フォーマットを2つの既存のデータセットにベースとし、それぞれを改善します。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
さらに、前者よりも完全な引用ネットワークを持ち、文書構造の表現が豊富であり、数学的表記のようなテキスト以外の出版内容も保持している。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
すべてのデータとソースコードはhttps://github.com/illdepence/unarxiveで公開されている。
関連論文リスト
- AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T06:06:34Z) - [Citation needed] Data usage and citation practices in medical imaging conferences [1.9702506447163306]
データセットの使用状況の検出を支援するオープンソースツールを2つ提示する。
本研究は,MICCAIおよびMIDLの論文における20の公開医療データセットの使用状況について検討した。
以上の結果から,限られたデータセット群の使用率の上昇が示唆された。
論文 参考訳(メタデータ) (2024-02-05T13:41:22Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Documenting the English Colossal Clean Crawled Corpus [28.008953329187648]
この作業は、Common Crawlの単一のスナップショットにフィルターのセットを適用することによって作成されたデータセットであるColossal Clean Crawled Corpus(C4; Raffel et al., 2020)の最初のドキュメントを提供します。
まず、テキストがどこから来ていつ書き込まれたかの分布を含む、データのハイレベルな要約から始めます。
次に、最も頻繁なテキストソースを含む、このデータの突出した部分に関するより詳細な分析を行う。
論文 参考訳(メタデータ) (2021-04-18T07:42:52Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。