論文の概要: WithdrarXiv: A Large-Scale Dataset for Retraction Study
- arxiv url: http://arxiv.org/abs/2412.03775v1
- Date: Wed, 04 Dec 2024 23:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:51.961851
- Title: WithdrarXiv: A Large-Scale Dataset for Retraction Study
- Title(参考訳): WithdrarXiv:リトラクション研究のための大規模データセット
- Authors: Delip Rao, Jonathan Young, Thomas Dietterich, Chris Callison-Burch,
- Abstract要約: 本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
- 参考スコア(独自算出の注目度): 33.782357627001154
- License:
- Abstract: Retractions play a vital role in maintaining scientific integrity, yet systematic studies of retractions in computer science and other STEM fields remain scarce. We present WithdrarXiv, the first large-scale dataset of withdrawn papers from arXiv, containing over 14,000 papers and their associated retraction comments spanning the repository's entire history through September 2024. Through careful analysis of author comments, we develop a comprehensive taxonomy of retraction reasons, identifying 10 distinct categories ranging from critical errors to policy violations. We demonstrate a simple yet highly accurate zero-shot automatic categorization of retraction reasons, achieving a weighted average F1-score of 0.96. Additionally, we release WithdrarXiv-SciFy, an enriched version including scripts for parsed full-text PDFs, specifically designed to enable research in scientific feasibility studies, claim verification, and automated theorem proving. These findings provide valuable insights for improving scientific quality control and automated verification systems. Finally, and most importantly, we discuss ethical issues and take a number of steps to implement responsible data release while fostering open science in this area.
- Abstract(参考訳): リトラクションは科学的完全性を維持する上で重要な役割を担っているが、コンピュータ科学や他のSTEM分野におけるリトラクションの体系的研究はほとんど残っていない。
arXivから撤退した論文の大規模なデータセットであるWithdrarXivを紹介し、2024年9月までのレポジトリの全履歴に14,000以上の論文と関連するリトラクションコメントを含む。
著者のコメントを慎重に分析することにより,批判的誤りから政策違反まで,10の異なるカテゴリーを識別し,削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
さらに、我々は、科学的実現可能性の研究、クレーム検証、自動定理証明を可能にするために特別に設計されたフルテキストPDFを解析するためのスクリプトを含む、リッチなバージョンであるWithdrarXiv-SciFyをリリースした。
これらの知見は、科学的品質管理と自動検証システムを改善するための貴重な洞察を提供する。
最後に、倫理的問題を議論し、この分野のオープンサイエンスを育成しながら責任あるデータリリースを実装するための多くのステップを取ります。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Meta-survey on outlier and anomaly detection [0.0]
本稿では,一般的な調査の体系的メタサーベイと,異常検出と異常検出に関するレビューを実装した。
2つの専門的な科学的な検索エンジンを使って500近い論文を集めている。
本稿は,20年間にわたる外乱検出フィールドの進化を考察し,新たなテーマと方法を明らかにする。
論文 参考訳(メタデータ) (2023-12-12T09:29:22Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z) - MS2: Multi-Document Summarization of Medical Studies [11.38740406132287]
MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。
このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。
早期成果を期待して,BARTに基づく要約システムを実験した。
論文 参考訳(メタデータ) (2021-04-13T19:59:34Z) - Accelerating COVID-19 research with graph mining and transformer-based
learning [2.493740042317776]
新型コロナウイルス研究のための汎用仮説自動生成システムAGATHA-CとAGATHA-GPを紹介します。
どちらのシステムも、高速な計算時間でドメイン(一部のドメインでは0.97%のROC AUC)間で高品質の予測を実現します。
これらのシステムは、新型コロナウイルスとオキシトシンホルモンの関係など、現在進行中の研究成果を発見できることを示す。
論文 参考訳(メタデータ) (2021-02-10T15:11:36Z) - Document Classification for COVID-19 Literature [15.458071120159307]
本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。
トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。
また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
論文 参考訳(メタデータ) (2020-06-15T20:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。