論文の概要: NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
- arxiv url: http://arxiv.org/abs/2503.08600v2
- Date: Sat, 15 Mar 2025 21:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:41.362001
- Title: NSF-SciFy: Mining the NSF Awards Database for Scientific Claims
- Title(参考訳): NSF-SciFy: NSF Awards Database for Scientific Claims(英語)
- Authors: Delip Rao, Weiqiu You, Eric Wong, Chris Callison-Burch,
- Abstract要約: NSF-SciFyは,国立科学財団(NSF)のデータベースから科学クレームを抽出する大規模データセットである。
出版が効力を持つ前に、研究ライフサイクルの初期段階でクレームを捉えます。
提案では,既存の科学的主張と実証研究の意図を区別する新たな課題も紹介する。
- 参考スコア(独自算出の注目度): 43.102250589677126
- License:
- Abstract: We present NSF-SciFy, a large-scale dataset for scientific claim extraction derived from the National Science Foundation (NSF) awards database, comprising over 400K grant abstracts spanning five decades. While previous datasets relied on published literature, we leverage grant abstracts which offer a unique advantage: they capture claims at an earlier stage in the research lifecycle before publication takes effect. We also introduce a new task to distinguish between existing scientific claims and aspirational research intentions in proposals. Using zero-shot prompting with frontier large language models, we jointly extract 114K scientific claims and 145K investigation proposals from 16K grant abstracts in the materials science domain to create a focused subset called NSF-SciFy-MatSci. We use this dataset to evaluate 3 three key tasks: (1) technical to non-technical abstract generation, where models achieve high BERTScore (0.85+ F1); (2) scientific claim extraction, where fine-tuned models outperform base models by 100% relative improvement; and (3) investigation proposal extraction, showing 90%+ improvement with fine-tuning. We introduce novel LLM-based evaluation metrics for robust assessment of claim/proposal extraction quality. As the largest scientific claim dataset to date -- with an estimated 2.8 million claims across all STEM disciplines funded by the NSF -- NSF-SciFy enables new opportunities for claim verification and meta-scientific research. We publicly release all datasets, trained models, and evaluation code to facilitate further research.
- Abstract(参考訳): NSF-SciFyは,国立科学財団(NSF)のアワードデータベースから抽出した科学的クレーム抽出のための大規模データセットであり,50年間に渡り400万件以上の助成金の抽象化で構成されている。
以前のデータセットは出版文献に依存していましたが、出版が効く前に研究ライフサイクルの早い段階でクレームを捉えます。
提案では,既存の科学的主張と実証研究の意図を区別する新たな課題も紹介する。
ゼロショットプロンプトとフロンティアの大規模言語モデルを用いて,材料科学領域における114Kの科学的主張と115Kの探索提案を共同で抽出し,NSF-SciFy-MatSciと呼ばれる集中サブセットを作成する。
このデータセットを用いて,(1)非技術的抽象生成,(2)高BERTScore(0.85+F1)の達成,(2)微調整モデルによる科学的クレーム抽出,(3)微調整モデルによる90%以上の改善を示す調査提案抽出の3つの主要な課題を評価する。
クレーム/プロポーサル抽出品質のロバスト評価のためのLCMに基づく新しい評価指標を提案する。
NSFが資金提供したすべてのSTEM分野において、これまでで最大の科学的クレームデータセットであるNSF-SciFyは、クレーム検証とメタ科学研究の新たな機会を提供する。
さらなる研究を容易にするために、すべてのデータセット、トレーニングされたモデル、評価コードを公開しています。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Dataset Mention Extraction in Scientific Articles Using Bi-LSTM-CRF Model [0.0]
データレポジトリや資金調達機関による最近の取り組みにもかかわらず、データセットの引用は一般的でも標準的でもないことが示されています。
この問題の潜在的な解決策は、科学論文からデータセットの言及を自動的に抽出することである。
本研究では,Bi-LSTM-CRFアーキテクチャに基づくニューラルネットワークを用いて,そのような抽出を実現することを提案する。
論文 参考訳(メタデータ) (2024-05-21T18:12:37Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - A Pipeline for Analysing Grant Applications [0.0]
本稿では,提案手法が意図した革新的なプロジェクト提案を効果的に識別するかどうかを考察する。
グラント申請は、レビュアーが割り当てた「特定の革新と創造性」(IC)スコアを含むピアレビューされた研究提案である。
本稿では,特徴を符号化した文書上のランダムフォレスト(RF)分類器として,最高の性能を持つモデルを提案する。
論文 参考訳(メタデータ) (2022-10-30T13:43:53Z) - SciFact-Open: Towards open-domain scientific claim verification [61.288725621156864]
本稿では,科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを提案する。
我々は、4つの最先端の科学的クレーム検証モデルの上位予測をプールし、注釈付けすることで、科学的クレームの証拠を収集する。
その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。
論文 参考訳(メタデータ) (2022-10-25T05:45:00Z) - TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics [32.4845534482475]
NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
論文 参考訳(メタデータ) (2021-01-25T17:54:06Z) - Fact or Fiction: Verifying Scientific Claims [53.29101835904273]
本稿では,研究文献から,REFUTESやREFUTESが与えられた科学的主張であることを示す証拠を含む抄録を抽出する新たな課題である,科学的クレーム検証を紹介する。
SciFactは、1.4Kの専門家による科学的主張と、ラベルや合理性に注釈を付けたエビデンスを含む抽象概念を組み合わせたデータセットである。
このシステムは,CORD-19コーパスの証拠を同定することにより,新型コロナウイルス関連クレームを検証可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T17:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。