論文の概要: LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.10415v1
- Date: Mon, 14 Apr 2025 17:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 21:48:06.570162
- Title: LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models
- Title(参考訳): LLM-SRBench: 大規模言語モデルによる科学的方程式発見のための新しいベンチマーク
- Authors: Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy,
- Abstract要約: LLM(Large Language Models)は、仮説生成に埋め込まれた科学的知識を活用する可能性に関心を寄せている。
既存のベンチマークは、LLMによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しないインフレーションされたパフォーマンス指標に繋がる。
本稿では,4つの領域にまたがる239の課題を伴う総合的なベンチマークであるLSM-SRBenchを紹介する。
我々のベンチマークは、2つの主要なカテゴリで構成されている: LSR-Transformは、一般的な物理モデルからあまり一般的でない数学的表現に変換し、記憶された形式を超えた推論をテストする。
- 参考スコア(独自算出の注目度): 20.800445482814958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific equation discovery is a fundamental task in the history of scientific progress, enabling the derivation of laws governing natural phenomena. Recently, Large Language Models (LLMs) have gained interest for this task due to their potential to leverage embedded scientific knowledge for hypothesis generation. However, evaluating the true discovery capabilities of these methods remains challenging, as existing benchmarks often rely on common equations that are susceptible to memorization by LLMs, leading to inflated performance metrics that do not reflect discovery. In this paper, we introduce LLM-SRBench, a comprehensive benchmark with 239 challenging problems across four scientific domains specifically designed to evaluate LLM-based scientific equation discovery methods while preventing trivial memorization. Our benchmark comprises two main categories: LSR-Transform, which transforms common physical models into less common mathematical representations to test reasoning beyond memorized forms, and LSR-Synth, which introduces synthetic, discovery-driven problems requiring data-driven reasoning. Through extensive evaluation of several state-of-the-art methods, using both open and closed LLMs, we find that the best-performing system so far achieves only 31.5% symbolic accuracy. These findings highlight the challenges of scientific equation discovery, positioning LLM-SRBench as a valuable resource for future research.
- Abstract(参考訳): 科学方程式発見は科学史における基本的な課題であり、自然現象を規定する法則の導出を可能にする。
近年,Large Language Models (LLMs) は仮説生成に埋め込まれた科学的知識を活用する可能性から,この課題への関心が高まっている。
しかし、これらの手法の真の発見能力を評価することは依然として困難であり、既存のベンチマークは LLM による暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しない性能指標が膨らんでいる。
本稿では, LLM-SRBenchを用いて, 自明な暗記を防止しつつ, LLMに基づく科学的方程式探索手法を評価することを目的とし, 4つの分野にまたがる239の難解な問題を含む総合的なベンチマークについて紹介する。
我々のベンチマークは、一般的な物理モデルからあまり一般的でない数学的表現に変換するLSR-Transformと、データ駆動推論を必要とする合成的発見駆動問題を導入するLSR-Synthの2つの主要なカテゴリで構成されている。
オープンおよびクローズド両方のLCMを用いて、最先端のいくつかの手法を広範囲に評価することにより、今までの最高の性能システムは、わずか31.5%のシンボリック精度しか達成していないことが判明した。
これらの発見は科学方程式発見の課題を浮き彫りにし、LLM-SRBenchを将来の研究の貴重な資源として位置づけた。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - InductionBench: LLMs Fail in the Simplest Complexity Class [53.70978746199222]
大規模言語モデル(LLM)は推論において顕著に改善されている。
帰納的推論(inductive reasoning)は、観測されたデータから基礎となるルールを推測するものであり、まだ探索されていない。
本稿では, LLMの帰納的推論能力を評価するための新しいベンチマークであるインジェクションベンチを紹介する。
論文 参考訳(メタデータ) (2025-02-20T03:48:00Z) - Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - LLM4ED: Large Language Models for Automatic Equation Discovery [0.8644909837301149]
我々は、自然言語に基づくプロンプトを利用して、データから支配方程式を自動的にマイニングする大規模言語モデルをガイドする新しいフレームワークを導入する。
具体的には、まずLLMの生成能力を利用して、文字列形式で様々な方程式を生成し、次に観測に基づいて生成された方程式を評価する。
実験は偏微分方程式と常微分方程式の両方で広範囲に行われる。
論文 参考訳(メタデータ) (2024-05-13T14:03:49Z) - LLM-SR: Scientific Equation Discovery via Programming with Large Language Models [17.64574496035502]
現在の方程式発見法は、典型的には記号回帰と呼ばれ、主にデータのみから方程式を抽出することに焦点を当てている。
LLM-SRは,大規模言語モデルの科学的知識とロバストなコード生成能力を活用する新しいアプローチである。
また, LLM-SRは, 最先端の記号的回帰ベースラインを著しく上回る物理精度の方程式を発見した。
論文 参考訳(メタデータ) (2024-04-29T03:30:06Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。