Fugu-MT 論文翻訳(概要): WithdrarXiv: A Large-Scale Dataset for Retraction Study

論文の概要: WithdrarXiv: A Large-Scale Dataset for Retraction Study

arxiv url: http://arxiv.org/abs/2412.03775v1
Date: Wed, 04 Dec 2024 23:36:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.823175
Title: WithdrarXiv: A Large-Scale Dataset for Retraction Study
Title（参考訳）: WithdrarXiv:リトラクション研究のための大規模データセット
Authors: Delip Rao, Jonathan Young, Thomas Dietterich, Chris Callison-Burch,
Abstract要約: 本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。重み付き平均F1スコアは0.96である。
参考スコア（独自算出の注目度）: 33.782357627001154
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Retractions play a vital role in maintaining scientific integrity, yet systematic studies of retractions in computer science and other STEM fields remain scarce. We present WithdrarXiv, the first large-scale dataset of withdrawn papers from arXiv, containing over 14,000 papers and their associated retraction comments spanning the repository's entire history through September 2024. Through careful analysis of author comments, we develop a comprehensive taxonomy of retraction reasons, identifying 10 distinct categories ranging from critical errors to policy violations. We demonstrate a simple yet highly accurate zero-shot automatic categorization of retraction reasons, achieving a weighted average F1-score of 0.96. Additionally, we release WithdrarXiv-SciFy, an enriched version including scripts for parsed full-text PDFs, specifically designed to enable research in scientific feasibility studies, claim verification, and automated theorem proving. These findings provide valuable insights for improving scientific quality control and automated verification systems. Finally, and most importantly, we discuss ethical issues and take a number of steps to implement responsible data release while fostering open science in this area.
Abstract（参考訳）: リトラクションは科学的完全性を維持する上で重要な役割を担っているが、コンピュータ科学や他のSTEM分野におけるリトラクションの体系的研究はほとんど残っていない。 arXivから撤退した論文の大規模なデータセットであるWithdrarXivを紹介し、2024年9月までのレポジトリの全履歴に14,000以上の論文と関連するリトラクションコメントを含む。著者のコメントを慎重に分析することにより,批判的誤りから政策違反まで,10の異なるカテゴリーを識別し,削除理由の包括的分類を開発する。重み付き平均F1スコアは0.96である。さらに、我々は、科学的実現可能性の研究、クレーム検証、自動定理証明を可能にするために特別に設計されたフルテキストPDFを解析するためのスクリプトを含む、リッチなバージョンであるWithdrarXiv-SciFyをリリースした。これらの知見は、科学的品質管理と自動検証システムを改善するための貴重な洞察を提供する。最後に、倫理的問題を議論し、この分野のオープンサイエンスを育成しながら責任あるデータリリースを実装するための多くのステップを取ります。

関連論文リスト

ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers [3.929864777332447]
CS-PaperSumは、31の上位コンピュータサイエンスカンファレンスから91,919件の大規模データセットである。我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にする。
論文参考訳（メタデータ） (2025-02-27T22:48:35Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文参考訳（メタデータ） (2024-03-02T00:56:05Z)
Meta-survey on outlier and anomaly detection [0.0]
本稿では,一般的な調査の体系的メタサーベイと,異常検出と異常検出に関するレビューを実装した。 2つの専門的な科学的な検索エンジンを使って500近い論文を集めている。本稿は,20年間にわたる外乱検出フィールドの進化を考察し,新たなテーマと方法を明らかにする。
論文参考訳（メタデータ） (2023-12-12T09:29:22Z)
Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文参考訳（メタデータ） (2023-09-06T05:19:41Z)
SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文参考訳（メタデータ） (2022-10-25T05:45:00Z)
MS2: Multi-Document Summarization of Medical Studies [11.38740406132287]
MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。早期成果を期待して,BARTに基づく要約システムを実験した。
論文参考訳（メタデータ） (2021-04-13T19:59:34Z)
Accelerating COVID-19 research with graph mining and transformer-based learning [2.493740042317776]
新型コロナウイルス研究のための汎用仮説自動生成システムAGATHA-CとAGATHA-GPを紹介します。どちらのシステムも、高速な計算時間でドメイン(一部のドメインでは0.97%のROC AUC)間で高品質の予測を実現します。これらのシステムは、新型コロナウイルスとオキシトシンホルモンの関係など、現在進行中の研究成果を発見できることを示す。
論文参考訳（メタデータ） (2021-02-10T15:11:36Z)
Document Classification for COVID-19 Literature [15.458071120159307]
本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
論文参考訳（メタデータ） (2020-06-15T20:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。