論文の概要: LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.10415v1
- Date: Mon, 14 Apr 2025 17:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:56.634048
- Title: LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
- Title(参考訳): LLM-SRBench: 大規模言語モデルによる科学的方程式発見のための新しいベンチマーク
- Authors: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy,
- Abstract要約: LLM(Large Language Models)は、仮説生成に埋め込まれた科学的知識を活用する可能性に関心を寄せている。
既存のベンチマークは、LLMによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しないインフレーションされたパフォーマンス指標に繋がる。
本稿では,4つの領域にまたがる239の課題を伴う総合的なベンチマークであるLSM-SRBenchを紹介する。
我々のベンチマークは、2つの主要なカテゴリで構成されている: LSR-Transformは、一般的な物理モデルからあまり一般的でない数学的表現に変換し、記憶された形式を超えた推論をテストする。
- 参考スコア(独自算出の注目度): 20.800445482814958
- License:
- Abstract: Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.
- Abstract(参考訳): 科学方程式発見は科学史における基本的な課題であり、自然現象を規定する法則の導出を可能にする。
近年,Large Language Models (LLMs) は仮説生成に埋め込まれた科学的知識を活用する可能性から,この課題への関心が高まっている。
しかし、これらの手法の真の発見能力を評価することは依然として困難であり、既存のベンチマークは LLM による暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しない性能指標が膨らんでいる。
本稿では, LLM-SRBenchを用いて, 自明な暗記を防止しつつ, LLMに基づく科学的方程式探索手法を評価することを目的とし, 4つの分野にまたがる239の難解な問題を含む総合的なベンチマークについて紹介する。
我々のベンチマークは、一般的な物理モデルからあまり一般的でない数学的表現に変換するLSR-Transformと、データ駆動推論を必要とする合成的発見駆動問題を導入するLSR-Synthの2つの主要なカテゴリで構成されている。
オープンおよびクローズド両方のLCMを用いて、最先端のいくつかの手法を広範囲に評価することにより、今までの最高の性能システムは、わずか31.5%のシンボリック精度しか達成していないことが判明した。
これらの発見は科学方程式発見の課題を浮き彫りにし、LLM-SRBenchを将来の研究の貴重な資源として位置づけた。
関連論文リスト
- Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - Symbolic Regression with a Learned Concept Library [9.395222766576342]
本稿では,データセットを最もよく説明できる,コンパクトなプログラム仮説を探索する手法を提案する。
我々のアルゴリズムはLaSRと呼ばれ、ゼロショットクエリを大規模言語モデルに使用して概念を発見し、進化させます。
LaSRは、ディープラーニングと進化的アルゴリズムに基づいて、最先端のSRアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2024-09-14T08:17:30Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - LLM4ED: Large Language Models for Automatic Equation Discovery [0.8644909837301149]
我々は、自然言語に基づくプロンプトを利用して、データから支配方程式を自動的にマイニングする大規模言語モデルをガイドする新しいフレームワークを導入する。
具体的には、まずLLMの生成能力を利用して、文字列形式で様々な方程式を生成し、次に観測に基づいて生成された方程式を評価する。
実験は偏微分方程式と常微分方程式の両方で広範囲に行われる。
論文 参考訳(メタデータ) (2024-05-13T14:03:49Z) - LLM-SR: Scientific Equation Discovery via Programming with Large Language Models [17.64574496035502]
現在の方程式発見法は、典型的には記号回帰と呼ばれ、主にデータのみから方程式を抽出することに焦点を当てている。
LLM-SRは,大規模言語モデルの科学的知識とロバストなコード生成能力を活用する新しいアプローチである。
また, LLM-SRは, 最先端の記号的回帰ベースラインを著しく上回る物理精度の方程式を発見した。
論文 参考訳(メタデータ) (2024-04-29T03:30:06Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。