論文の概要: STEREO: Scientific Text Reuse in Open Access Publications
- arxiv url: http://arxiv.org/abs/2112.11800v1
- Date: Wed, 22 Dec 2021 11:15:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 17:47:25.615027
- Title: STEREO: Scientific Text Reuse in Open Access Publications
- Title(参考訳): sterEO:オープンアクセス公開で科学テキストを再利用
- Authors: Lukas Gienapp, Wolfgang Kircheis, Bjarne Sievers, Benno Stein, Martin
Potthast
- Abstract要約: Webis-STEREO-21は、オープンアクセス出版物における科学テキスト再利用の大規模なコレクションである。
4200万のユニーク・オープン・アクセス・パブリッシングで見つかった9100万件以上の再利用されたテキスト・パスが含まれている。
- 参考スコア(独自算出の注目度): 37.02839363147698
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the Webis-STEREO-21 dataset, a massive collection of Scientific
Text Reuse in Open-access publications. It contains more than 91 million cases
of reused text passages found in 4.2 million unique open-access publications.
Featuring a high coverage of scientific disciplines and varieties of reuse, as
well as comprehensive metadata to contextualize each case, our dataset
addresses the most salient shortcomings of previous ones on scientific writing.
Webis-STEREO-21 allows for tackling a wide range of research questions from
different scientific backgrounds, facilitating both qualitative and
quantitative analysis of the phenomenon as well as a first-time grounding on
the base rate of text reuse in scientific publications.
- Abstract(参考訳): Webis-STEREO-21データセットは,オープンアクセス出版物における学術テキスト再利用の膨大なコレクションである。
4200万のユニークな公開出版物で見つかった9100万件以上の再利用されたテキストパスが含まれている。
科学的規律や多種多様な再利用を包括的に網羅し、それぞれのケースを文脈化するための包括的メタデータを備えているため、我々のデータセットは科学的な文章に関する過去の論文の最も顕著な欠点に対処する。
Webis-STEREO-21は、様々な科学的背景から幅広い研究課題に取り組むことができ、この現象の質的および定量的分析と、科学出版物におけるテキスト再利用のベースレートに基づく最初の基礎となる。
関連論文リスト
- SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Can Large Language Models Detect Misinformation in Scientific News
Reporting? [1.0344642971058586]
本稿では,科学的報告における誤情報の検出に大規模言語モデル(LLM)を用いることが可能であるかを検討する。
最初にラベル付きデータセットSciNewsを提示し、信頼できない情報源から抜粋された2.4万の科学ニュース記事を含む。
科学ニュース記事の科学的妥当性の次元を識別し、科学的誤報の自動検出にどのように組み込むかを検討する。
論文 参考訳(メタデータ) (2024-02-22T04:07:00Z) - The Open Review-Based (ORB) dataset: Towards Automatic Assessment of
Scientific Papers and Experiment Proposals in High-Energy Physics [0.0]
新しい包括的オープンレビューベースデータセット(ORB)を紹介する。
これには36,000以上の科学論文のキュレートされたリストが含まれ、89,000以上のレビューと最終決定が含まれている。
本稿では,データアーキテクチャと収集データの概要と関連する統計について述べる。
論文 参考訳(メタデータ) (2023-11-29T20:52:02Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - SMAuC -- The Scientific Multi-Authorship Corpus [32.77279821297011]
本稿では,SMAuCを紹介する。SMAuCは科学的オーサシップ分析に適した,包括的でメタデータに富んだコーパスである。
SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大規模のコーパスである。
論文 参考訳(メタデータ) (2022-11-04T14:07:17Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z) - TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics [32.4845534482475]
NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
論文 参考訳(メタデータ) (2021-01-25T17:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。