論文の概要: ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
- arxiv url: http://arxiv.org/abs/2503.21248v1
- Date: Thu, 27 Mar 2025 08:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:14.589114
- Title: ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition
- Title(参考訳): ResearchBench: 吸気型タスク分解による科学的発見のためのLLMのベンチマーク
- Authors: Yujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou,
- Abstract要約: 大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
- 参考スコア(独自算出の注目度): 67.26124739345332
- License:
- Abstract: Large language models (LLMs) have demonstrated potential in assisting scientific research, yet their ability to discover high-quality research hypotheses remains unexamined due to the lack of a dedicated benchmark. To address this gap, we introduce the first large-scale benchmark for evaluating LLMs with a near-sufficient set of sub-tasks of scientific discovery: inspiration retrieval, hypothesis composition, and hypothesis ranking. We develop an automated framework that extracts critical components - research questions, background surveys, inspirations, and hypotheses - from scientific papers across 12 disciplines, with expert validation confirming its accuracy. To prevent data contamination, we focus exclusively on papers published in 2024, ensuring minimal overlap with LLM pretraining data. Our evaluation reveals that LLMs perform well in retrieving inspirations, an out-of-distribution task, suggesting their ability to surface novel knowledge associations. This positions LLMs as "research hypothesis mines", capable of facilitating automated scientific discovery by generating innovative hypotheses at scale with minimal human intervention.
- Abstract(参考訳): 大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、専用のベンチマークがないため、高品質な研究仮説を発見する能力はいまだ検討されていない。
このギャップに対処するため,我々はLLMを科学的発見のほぼ十分なサブタスク(インスピレーション検索,仮説合成,仮説ランキング)で評価するための最初の大規模ベンチマークを導入する。
我々は、12分野にわたる科学論文から重要なコンポーネント(研究質問、バックグラウンドサーベイ、インスピレーション、仮説)を抽出する自動フレームワークを開発し、その正確性を確認する。
データ汚染を防止するため、2024年に出版された論文のみに焦点を合わせ、LLM事前学習データとの重複を最小限に抑える。
評価の結果,LLMはアウト・オブ・ディストリビューション・タスクであるインスピレーションの獲得に優れており,新たな知識関連を創出できる可能性が示唆された。
このことはLSMを「研究仮説鉱山」と位置づけ、人間の介入を最小限に抑えて大規模に革新的な仮説を生成することによって、自動的な科学的発見を促進することができる。
関連論文リスト
- LLM4SR: A Survey on Large Language Models for Scientific Research [15.533076347375207]
大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。
本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
論文 参考訳(メタデータ) (2025-01-08T06:44:02Z) - Simulating Tabular Datasets through LLMs to Rapidly Explore Hypotheses about Real-World Entities [9.235910374587734]
本稿では, コンクリート構造物の特性評価にLCMを適用することにより, 仮説の素早いプロトタイプ化の可能性について検討する。
目標は、人間と機械のコラボレーションを通じて、仮説をもっと早く解釈できるようにすることだ。
論文 参考訳(メタデータ) (2024-11-27T05:48:44Z) - Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
化学仮説の大多数は、研究の背景といくつかのインスピレーションから得られると仮定する。
これらの問題を調査するため,我々は,自然,科学,あるいは2024年に公表された51の化学論文からなるベンチマークを構築した。
全ての論文は化学博士課程の学生によって背景、インスピレーション、仮説の3つの構成要素に分けられる。
目的は、背景と大きなランダムに選択された化学文献コーパスのみを考慮し、仮説を再発見することである。
論文 参考訳(メタデータ) (2024-10-09T17:19:58Z) - Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers [90.26363107905344]
大型言語モデル(LLM)は、科学的な発見を加速する可能性についての楽観主義を喚起した。
LLMシステムは、新しい専門家レベルのアイデアを生み出すための第一歩を踏み出すことができるという評価はない。
論文 参考訳(メタデータ) (2024-09-06T08:25:03Z) - Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。
バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。
最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文 参考訳(メタデータ) (2024-07-12T02:55:13Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。