論文の概要: Elsevier OA CC-By Corpus
- arxiv url: http://arxiv.org/abs/2008.00774v3
- Date: Tue, 15 Sep 2020 09:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:48:43.140629
- Title: Elsevier OA CC-By Corpus
- Title(参考訳): elsevier oa cc-byコーパス
- Authors: Daniel Kershaw and Rob Koeling
- Abstract要約: これは科学研究論文の最初の公開コーパスであり、科学の分野からの代表的なサンプルがある。
このコーパスには、記事の全文だけでなく、ドキュメントのメタデータや、参照毎の情報が含まれています。
- 参考スコア(独自算出の注目度): 0.17404865362620794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Elsevier OA CC-BY corpus. This is the first open corpus of
Scientific Research papers which has a representative sample from across
scientific disciplines. This corpus not only includes the full text of the
article, but also the metadata of the documents, along with the bibliographic
information for each reference.
- Abstract(参考訳): 我々はElsevier OA CC-BYコーパスを紹介する。
これは科学研究論文の最初の公開コーパスであり、科学の分野からの代表的なサンプルがある。
このコーパスには、記事の全文だけでなく、文書のメタデータや、参照毎の書誌情報が含まれています。
関連論文リスト
- The Cambridge Law Corpus: A Dataset for Legal AI Research [39.46419979211015]
法的なAI研究のためのデータセットであるCambridge Law Corpus (CLC)を紹介する。
英国から250,000件以上の訴訟が起こっている。
ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。
論文 参考訳(メタデータ) (2023-09-21T17:24:40Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts:
The Paragraph-level Topic Representation, Corpus, and Benchmark [68.37789691077892]
タイトル,サブヘッダ,段落を含む階層的な段落レベルのトピック構造表現を導入する。
我々は,これまでで最大であった4倍の大きさの中国段落レベルのトピック構造コーパス(CPTS)を構築した。
我々は,2つの基本課題(トピックセグメンテーションとアウトライン生成)におけるCPTSの計算可能性について,いくつかの強いベースラインで検証し,その有効性は下流タスクにおいて予め確認されている:談話解析である。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Carolina: a General Corpus of Contemporary Brazilian Portuguese with
Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。
カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文 参考訳(メタデータ) (2023-03-28T16:09:40Z) - PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文 参考訳(メタデータ) (2022-12-21T04:03:33Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - SciBERTSUM: Extractive Summarization for Scientific Documents [16.801859298078334]
SciBERTSUMは500以上の文からなる科学論文のような長い文書の要約のために設計されている。
その結果,ROUGEスコアの点から,モデルの優位性を示した。
論文 参考訳(メタデータ) (2022-01-21T00:29:48Z) - MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。
コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文 参考訳(メタデータ) (2021-08-13T14:00:12Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Quantum Criticism: A Tagged News Corpus Analysed for Sentiment and Named
Entities [18.458831729497224]
従来のニュースソースのRSSフィードからデータを継続的に収集する。
論文,段落,文レベルで各ニュース記事の感情分析を行う。
このコーパス内のデータは、ニュースレポートのバイアスを特定するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-06-05T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。