論文の概要: PreScience: A Benchmark for Forecasting Scientific Contributions
- arxiv url: http://arxiv.org/abs/2602.20459v1
- Date: Tue, 24 Feb 2026 01:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.569619
- Title: PreScience: A Benchmark for Forecasting Scientific Contributions
- Title(参考訳): PreScience: 科学的貢献を予測するためのベンチマーク
- Authors: Anirudh Ajith, Amanpreet Singh, Jay DeYoung, Nadav Kunievsky, Austin C. Kozlowski, Oyvind Tafjord, James Evans, Daniel S. Weld, Tom Hope, Doug Downey,
- Abstract要約: PreScienceは、研究プロセスを4つの相互依存的な生成タスクに分解する科学的予測ベンチマークである。
コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューション・コントリビューションの新たな尺度であるLACERScoreを含む,各タスクのベースラインと評価を開発する。
結果として得られる合成コーパスは、同時代の人間による研究よりも体系的に多様性が低く、新規性も低い。
- 参考スコア(独自算出の注目度): 32.63164451901248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can AI systems trained on the scientific record up to a fixed point in time forecast the scientific advances that follow? Such a capability could help researchers identify collaborators and impactful research directions, and anticipate which problems and methods will become central next. We introduce PreScience -- a scientific forecasting benchmark that decomposes the research process into four interdependent generative tasks: collaborator prediction, prior work selection, contribution generation, and impact prediction. PreScience is a carefully curated dataset of 98K recent AI-related research papers, featuring disambiguated author identities, temporally aligned scholarly metadata, and a structured graph of companion author publication histories and citations spanning 502K total papers. We develop baselines and evaluations for each task, including LACERScore, a novel LLM-based measure of contribution similarity that outperforms previous metrics and approximates inter-annotator agreement. We find substantial headroom remains in each task -- e.g. in contribution generation, frontier LLMs achieve only moderate similarity to the ground-truth (GPT-5, averages 5.6 on a 1-10 scale). When composed into a 12-month end-to-end simulation of scientific production, the resulting synthetic corpus is systematically less diverse and less novel than human-authored research from the same period.
- Abstract(参考訳): 科学記録に基づいてトレーニングされたAIシステムは、それに続く科学的進歩を予測できるだろうか?
この能力は、研究者が協力者や影響力のある研究方向を特定し、次にどの問題や方法が中心になるかを予測するのに役立つ。
研究プロセスを4つの相互依存的生成タスクに分解する科学予測ベンチマークであるPreScienceを紹介する。
PreScienceは、最近の9万9千件のAI関連研究論文の注意深く収集されたデータセットで、曖昧な著者の身元、時間的に整合した学術的メタデータ、502万の論文にまたがる共著者の出版履歴と引用の構造化されたグラフを特徴としている。
LACERScoreは,従来の指標を上回り,アノテータ間の合意を近似する,新しいLLMによるコントリビューション類似度尺度である。
例えば、貢献生成において、フロンティアのLLMは、接地ストラス (GPT-5, averages 5.6 on a 1-10 scale) と中程度の類似性しか達成しない。
科学的生産の12ヶ月のエンドツーエンドシミュレーションに組み込むと、得られた合成コーパスは体系的に多様性が低く、同時代の人間による研究よりも新規ではない。
関連論文リスト
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - CycleResearcher: Improving Automated Research via Automated Review [37.03497673861402]
本稿では,オープンソースの後学習型大規模言語モデル(LLM)を,自動研究とレビューの全サイクルを遂行する自律エージェントとして活用する可能性について検討する。
これらのモデルをトレーニングするために、現実の機械学習研究とピアレビューダイナミクスを反映した2つの新しいデータセットを開発した。
その結果,CycleReviewerは平均絶対誤差(MAE)を26.89%削減して有望な性能を達成できた。
論文 参考訳(メタデータ) (2024-10-28T08:10:21Z) - Literature Meets Data: A Synergistic Approach to Hypothesis Generation [24.98928229927995]
本研究では,文献に基づく洞察とデータを組み合わせて仮説生成を行う手法を開発した。
また,人間の意思決定を支援するためのLLM生成仮説の有用性を評価するための最初の人的評価を行った。
論文 参考訳(メタデータ) (2024-10-22T18:00:00Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。