Fugu-MT 論文翻訳(概要): Elsevier OA CC-By Corpus

論文の概要: Elsevier OA CC-By Corpus

arxiv url: http://arxiv.org/abs/2008.00774v3
Date: Tue, 15 Sep 2020 09:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 06:48:43.140629
Title: Elsevier OA CC-By Corpus
Title（参考訳）: elsevier oa cc-byコーパス
Authors: Daniel Kershaw and Rob Koeling
Abstract要約: これは科学研究論文の最初の公開コーパスであり、科学の分野からの代表的なサンプルがある。このコーパスには、記事の全文だけでなく、ドキュメントのメタデータや、参照毎の情報が含まれています。
参考スコア（独自算出の注目度）: 0.17404865362620794
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the Elsevier OA CC-BY corpus. This is the first open corpus of Scientific Research papers which has a representative sample from across scientific disciplines. This corpus not only includes the full text of the article, but also the metadata of the documents, along with the bibliographic information for each reference.
Abstract（参考訳）: 我々はElsevier OA CC-BYコーパスを紹介する。これは科学研究論文の最初の公開コーパスであり、科学の分野からの代表的なサンプルがある。このコーパスには、記事の全文だけでなく、文書のメタデータや、参照毎の書誌情報が含まれています。

関連論文リスト

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts [0.0]
SinhaLegalは1,206件の法的文書に約200万語を含むSinhala法定テキストコーパスを導入している。データセットには、1981年から2014年までの1,065件、2010年から2014年までの141件の法律文書が含まれている。テキストは、Google Document AIでOCRを使用して抽出され、続いて広範な後処理と手作業によるクリーニングにより、高品質でマシン可読なコンテンツが保証された。
論文参考訳（メタデータ） (2026-03-05T06:13:44Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
RAAMove: A Corpus for Analyzing Moves in Research Article Abstracts [9.457460355411582]
RAAMoveは、研究論文(RA)における移動構造のアノテーション専用の包括的なコーパスである。コーパスは、まず、エキスパートアノテータが手動で高品質なデータをアノテートし、次に、人間のアノテートデータに基づいて、BERTベースのモデルが自動アノテーションに使用される。その結果、33,988の注釈付きインスタンスからなる大規模で高品質なコーパスが得られた。
論文参考訳（メタデータ） (2024-03-23T15:43:30Z)
The Cambridge Law Corpus: A Dataset for Legal AI Research [39.46419979211015]
法的なAI研究のためのデータセットであるCambridge Law Corpus (CLC)を紹介する。英国から250,000件以上の訴訟が起こっている。ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。
論文参考訳（メタデータ） (2023-09-21T17:24:40Z)
Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance, Typology and Versioning Information [0.629199190108771]
カロライナは、ウェブ・アズ・コーパス・方法論を用いて建設中のブラジルのポルトガル語テキストの大規模なオープンコーパスである。カロライナで最初の公開バージョンは653,322,577ドルのトークンで、7ドル以上の広さに分散している。
論文参考訳（メタデータ） (2023-03-28T16:09:40Z)
PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition [63.51569687229681]
文中の各命題の文的含意関係を個別に認識する必要性について論じる。提案するPropSegmEntは45K以上の提案のコーパスであり, 専門家によるアノテートを行う。我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
論文参考訳（メタデータ） (2022-12-21T04:03:33Z)
LDKP: A Dataset for Identifying Keyphrases from Long Scientific Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文参考訳（メタデータ） (2022-03-29T08:44:57Z)
MIND - Mainstream and Independent News Documents Corpus [0.7347989843033033]
本稿では,オンライン主流メディアや代替メディアソースから収集したさまざまな種類の記事からなるポルトガル語コーパスであるMINDを特徴付ける。コーパスの記事は、事実、意見、娯楽、風刺、陰謀論の5つのコレクションにまとめられている。
論文参考訳（メタデータ） (2021-08-13T14:00:12Z)
CitationIE: Leveraging the Citation Graph for Scientific Information Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文参考訳（メタデータ） (2021-06-03T03:00:12Z)
Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文参考訳（メタデータ） (2021-04-07T11:13:35Z)
MedLatinEpi and MedLatinLit: Two Datasets for the Computational Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。 MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文参考訳（メタデータ） (2020-06-22T14:22:47Z)
Quantum Criticism: A Tagged News Corpus Analysed for Sentiment and Named Entities [18.458831729497224]
従来のニュースソースのRSSフィードからデータを継続的に収集する。論文,段落,文レベルで各ニュース記事の感情分析を行う。このコーパス内のデータは、ニュースレポートのバイアスを特定するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-06-05T17:59:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。