論文の概要: CSL: A Large-scale Chinese Scientific Literature Dataset
- arxiv url: http://arxiv.org/abs/2209.05034v1
- Date: Mon, 12 Sep 2022 06:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:02:22.949287
- Title: CSL: A Large-scale Chinese Scientific Literature Dataset
- Title(参考訳): CSL: 大規模中国の科学文献データセット
- Authors: Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan
Mao, and Hui Zhang
- Abstract要約: CSLは,396k論文のタイトル,要約,キーワード,学術分野を含む,中国科学文献の大規模データセットである。
我々の知る限り、CSLは中国初の科学的文書データセットである。また、この半構造化データは、多くの教師付きNLPタスクを構成することができる自然なアノテーションである。
本稿では,要約,キーワード生成,テキスト分類など,科学的領域のタスクにおけるモデルの性能を評価するためのベンチマークを提案する。
- 参考スコア(独自算出の注目度): 30.606855209042603
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scientific literature serves as a high-quality corpus, supporting a lot of
Natural Language Processing (NLP) research. However, existing datasets are
centered around the English language, which restricts the development of
Chinese scientific NLP. In this work, we present CSL, a large-scale Chinese
Scientific Literature dataset, which contains the titles, abstracts, keywords
and academic fields of 396k papers. To our knowledge, CSL is the first
scientific document dataset in Chinese. The CSL can serve as a Chinese corpus.
Also, this semi-structured data is a natural annotation that can constitute
many supervised NLP tasks. Based on CSL, we present a benchmark to evaluate the
performance of models across scientific domain tasks, i.e., summarization,
keyword generation and text classification. We analyze the behavior of existing
text-to-text models on the evaluation tasks and reveal the challenges for
Chinese scientific NLP tasks, which provides a valuable reference for future
research. Data and code are available at https://github.com/ydli-ai/CSL
- Abstract(参考訳): 科学文献は高品質なコーパスとして機能し、多くの自然言語処理(NLP)研究を支援している。
しかし、既存のデータセットは、中国科学NLPの発展を制限する英語を中心にしている。
本研究では,396k論文のタイトル,要約,キーワード,学術分野を含む大規模中国科学文献データセットであるCSLについて述べる。
我々の知る限り、CSLは中国初の科学的文書データセットである。
CSLは中国のコーパスとして機能する。
また、この半構造化データは、多くの教師付きNLPタスクを構成することができる自然なアノテーションである。
cslに基づいて,科学的領域タスク,すなわち要約,キーワード生成,テキスト分類におけるモデルの性能評価を行うベンチマークを示す。
評価タスクにおける既存のテキスト・テキスト・モデルの振る舞いを分析し,中国科学NLPタスクの課題を明らかにする。
データとコードはhttps://github.com/ydli-ai/CSLで入手できる。
関連論文リスト
- MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.293189105900524]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。
XLNetで最高のパフォーマンスモデルでは、マクロF1スコアは78.18%、精度は78.23%である。
論文 参考訳(メタデータ) (2022-03-13T18:23:37Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z) - Automatic coding of students' writing via Contrastive Representation
Learning in the Wasserstein space [6.884245063902909]
本研究は,学生の文章の質的分析を支援する統計的機械学習(ML)手法を構築するためのステップである。
MLアルゴリズムは,人間解析のラタ間信頼性に近づいた。
論文 参考訳(メタデータ) (2020-11-26T16:52:48Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。