論文の概要: WithdrarXiv: A Large-Scale Dataset for Retraction Study
- arxiv url: http://arxiv.org/abs/2412.03775v1
- Date: Wed, 04 Dec 2024 23:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 20:43:01.823175
- Title: WithdrarXiv: A Large-Scale Dataset for Retraction Study
- Title(参考訳): WithdrarXiv:リトラクション研究のための大規模データセット
- Authors: Delip Rao, Jonathan Young, Thomas Dietterich, Chris Callison-Burch,
- Abstract要約: 本稿では,arXivから抽出した論文の大規模データセットであるWithdrarXivを紹介する。
我々は、致命的な誤りから政策違反まで10の異なるカテゴリーを識別し、削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
- 参考スコア(独自算出の注目度): 33.782357627001154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retractions play a vital role in maintaining scientific integrity, yet systematic studies of retractions in computer science and other STEM fields remain scarce. We present WithdrarXiv, the first large-scale dataset of withdrawn papers from arXiv, containing over 14,000 papers and their associated retraction comments spanning the repository's entire history through September 2024. Through careful analysis of author comments, we develop a comprehensive taxonomy of retraction reasons, identifying 10 distinct categories ranging from critical errors to policy violations. We demonstrate a simple yet highly accurate zero-shot automatic categorization of retraction reasons, achieving a weighted average F1-score of 0.96. Additionally, we release WithdrarXiv-SciFy, an enriched version including scripts for parsed full-text PDFs, specifically designed to enable research in scientific feasibility studies, claim verification, and automated theorem proving. These findings provide valuable insights for improving scientific quality control and automated verification systems. Finally, and most importantly, we discuss ethical issues and take a number of steps to implement responsible data release while fostering open science in this area.
- Abstract(参考訳): リトラクションは科学的完全性を維持する上で重要な役割を担っているが、コンピュータ科学や他のSTEM分野におけるリトラクションの体系的研究はほとんど残っていない。
arXivから撤退した論文の大規模なデータセットであるWithdrarXivを紹介し、2024年9月までのレポジトリの全履歴に14,000以上の論文と関連するリトラクションコメントを含む。
著者のコメントを慎重に分析することにより,批判的誤りから政策違反まで,10の異なるカテゴリーを識別し,削除理由の包括的分類を開発する。
重み付き平均F1スコアは0.96である。
さらに、我々は、科学的実現可能性の研究、クレーム検証、自動定理証明を可能にするために特別に設計されたフルテキストPDFを解析するためのスクリプトを含む、リッチなバージョンであるWithdrarXiv-SciFyをリリースした。
これらの知見は、科学的品質管理と自動検証システムを改善するための貴重な洞察を提供する。
最後に、倫理的問題を議論し、この分野のオープンサイエンスを育成しながら責任あるデータリリースを実装するための多くのステップを取ります。
関連論文リスト
- DeepEra: A Deep Evidence Reranking Agent for Scientific Retrieval-Augmented Generated Question Answering [28.427433335623217]
ステップバイステップ推論を統合したディープエビデンス評価エージェント(DeepEra)を提案する。
この研究は、2段階のRAGフレームワークにおいて、無視できないSSLI問題を包括的に研究し、実証的に検証した初めてのものである。
論文 参考訳(メタデータ) (2026-01-23T06:19:08Z) - Measuring the State of Open Science in Transportation Using Large Language Models [8.915048816245394]
オープンサイエンスのイニシアチブは、科学の完全性を強化し、多くの分野における研究の進歩を加速してきた。
オープンサイエンスの主要な特徴は、ここではデータとコードの可用性として定義されており、フィールド固有の複雑さのために抽出するのが困難である。
本稿では,交通研究におけるデータとコード可用性を計測する,自動かつスケーラブルな特徴抽出パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-20T19:39:52Z) - WildSci: Advancing Scientific Reasoning from In-the-Wild Literature [50.16160754134139]
我々は、ピアレビューされた文献から自動的に合成されるドメイン固有の科学質問の新しいデータセットWildSciを紹介する。
複雑な科学的推論タスクを複数選択形式でフレーミングすることにより、明確に定義された報酬信号によるスケーラブルなトレーニングを可能にする。
一連の科学的ベンチマークの実験は、我々のデータセットとアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2026-01-09T06:35:23Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - VERIRAG: Healthcare Claim Verification via Statistical Audit in Retrieval-Augmented Generation [12.545868971471844]
VERIRAGは3つの重要な貢献を行うフレームワークである: (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Veritable (i) Dynamic Acceptance Threshold (iii) Dynamic Acceptance Threshold (i)
論文 参考訳(メタデータ) (2025-07-23T21:32:50Z) - ForeCite: Adapting Pre-Trained Language Models to Predict Future Citation Rates of Academic Papers [0.0]
本稿では,学術論文の今後の引用率を予測するフレームワークであるForeCiteを紹介する。
ForeCiteは2000年から2024年にかけて発行された900K以上のバイオメディカル論文のキュレートされたデータセット上で、$rho = 0.826$のテスト相関を達成している。
これらの結果は,学術研究の長期的影響を予測し,科学的貢献の自動化された高忠実度評価の基礎を築いた。
論文 参考訳(メタデータ) (2025-05-13T20:10:00Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers [3.929864777332447]
CS-PaperSumは、31の上位コンピュータサイエンスカンファレンスから91,919件の大規模データセットである。
我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にする。
論文 参考訳(メタデータ) (2025-02-27T22:48:35Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Meta-survey on outlier and anomaly detection [0.0]
本稿では,一般的な調査の体系的メタサーベイと,異常検出と異常検出に関するレビューを実装した。
2つの専門的な科学的な検索エンジンを使って500近い論文を集めている。
本稿は,20年間にわたる外乱検出フィールドの進化を考察し,新たなテーマと方法を明らかにする。
論文 参考訳(メタデータ) (2023-12-12T09:29:22Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z) - MS2: Multi-Document Summarization of Medical Studies [11.38740406132287]
MS2(Multi-Document Summarization of Medical Studies)は、科学文献から得られた470k以上の文書と20kの要約からなるデータセットです。
このデータセットは、矛盾する証拠を複数の研究で評価し集約するシステムの開発を促進する。
早期成果を期待して,BARTに基づく要約システムを実験した。
論文 参考訳(メタデータ) (2021-04-13T19:59:34Z) - Accelerating COVID-19 research with graph mining and transformer-based
learning [2.493740042317776]
新型コロナウイルス研究のための汎用仮説自動生成システムAGATHA-CとAGATHA-GPを紹介します。
どちらのシステムも、高速な計算時間でドメイン(一部のドメインでは0.97%のROC AUC)間で高品質の予測を実現します。
これらのシステムは、新型コロナウイルスとオキシトシンホルモンの関係など、現在進行中の研究成果を発見できることを示す。
論文 参考訳(メタデータ) (2021-02-10T15:11:36Z) - Document Classification for COVID-19 Literature [15.458071120159307]
本稿では,LitCovidデータセットを用いた複数ラベル文書分類モデルの解析を行う。
トレーニング済みの言語モデルは、このデータセットで微調整され、他のすべてのベースラインより優れています。
また、LitCovidドキュメント上で最高のパフォーマンスモデルによって作成された50のエラーについても調べる。
論文 参考訳(メタデータ) (2020-06-15T20:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。