論文の概要: DrSR: LLM based Scientific Equation Discovery with Dual Reasoning from Data and Experience
- arxiv url: http://arxiv.org/abs/2506.04282v1
- Date: Wed, 04 Jun 2025 04:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.324025
- Title: DrSR: LLM based Scientific Equation Discovery with Dual Reasoning from Data and Experience
- Title(参考訳): DrSR: LLMによるデータと経験からの二重推論による科学方程式発見
- Authors: Runxiang Wang, Boxiao Wang, Kai Li, Yifan Zhang, Jian Cheng,
- Abstract要約: DrSRは、データ駆動の洞察と反射学習を組み合わせて、堅牢性と発見能力の両方を強化するフレームワークである。
物理学、化学、生物学、材料科学における学際的なデータセットにわたる実験は、DrSRが有効な方程式率を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 14.093206703519103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic regression is a fundamental tool for discovering interpretable mathematical expressions from data, with broad applications across scientific and engineering domains. Recently, large language models (LLMs) have demonstrated strong performance in this task, leveraging embedded scientific priors and reasoning capabilities to surpass traditional methods. However, existing LLM-based approaches, such as LLM-SR, often over-rely on internal priors, lacking explicit data understanding and systematic reflection during equation generation. To address these limitations, we propose DrSR (Dual Reasoning Symbolic Regression), a framework that combines data-driven insight with reflective learning to enhance both robustness and discovery capability. Specifically, DrSR guides LLMs to analyze structural relationships (e.g., monotonicity, nonlinearity, and correlation) within the data to generate structured descriptions. Simultaneously, it monitors equation performance and establishes a feedback loop to refine subsequent generations. By integrating data understanding and generation reflection in a closed loop, DrSR enables more efficient exploration of the symbolic expression space. Experiments across interdisciplinary datasets in physics, chemistry, biology, and materials science demonstrate that DrSR substantially improves the valid equation rate and consistently outperforms both classical and recent LLM-based methods in terms of accuracy, generalization, and search efficiency. These results underscore its potential for scientific equation discovery.
- Abstract(参考訳): 記号回帰は、データから解釈可能な数学的表現を発見するための基本的なツールであり、科学と工学の領域にまたがる幅広い応用がある。
近年, 大規模言語モデル (LLM) は, 従来の手法を超越した科学的先入観と推論能力を活用し, 高い性能を示した。
しかしながら、LLM-SRのような既存のLLMベースのアプローチは、しばしば内部の事前に過剰に依存し、明示的なデータ理解と方程式生成時の体系的な反映が欠如している。
これらの制約に対処するため,データ駆動型インサイトと反射学習を組み合わせたフレームワークDrSR(Dual Reasoning Symbolic Regression)を提案する。
具体的には、データ内の構造的関係(例えば、単調性、非線形性、相関性)を分析して構造的記述を生成する。
同時に、方程式のパフォーマンスを監視し、その後の世代を洗練するためのフィードバックループを確立する。
データ理解と生成のリフレクションをクローズドループに統合することにより、DrSRはシンボリック表現空間のより効率的な探索を可能にする。
物理、化学、生物学、材料科学の学際的なデータセットにわたる実験により、DrSRは有効な方程式率を大幅に改善し、精度、一般化、探索効率の点で古典的および最近のLLMベースの手法を一貫して上回っていることが示された。
これらの結果は、科学的方程式の発見の可能性を強調している。
関連論文リスト
- LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models [20.800445482814958]
LLM(Large Language Models)は、仮説生成に埋め込まれた科学的知識を活用する可能性に関心を寄せている。
既存のベンチマークは、LLMによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しないインフレーションされたパフォーマンス指標に繋がる。
本稿では,4つの領域にまたがる239の課題を伴う総合的なベンチマークであるLSM-SRBenchを紹介する。
我々のベンチマークは、2つの主要なカテゴリで構成されている: LSR-Transformは、一般的な物理モデルからあまり一般的でない数学的表現に変換し、記憶された形式を超えた推論をテストする。
論文 参考訳(メタデータ) (2025-04-14T17:00:13Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - LOCAL: Learning with Orientation Matrix to Infer Causal Structure from Time Series Data [51.47827479376251]
LOCALは動的因果構造を復元するための効率的で実装が容易で制約のない手法である。
Asymptotic Causal Learning Mask (ACML) と Dynamic Graph Learning (DGPL)
合成および実世界のデータセットの実験では、LOCALが既存の手法よりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-10-25T10:48:41Z) - Discovering physical laws with parallel combinatorial tree search [57.05912962368898]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは10年以上にわたって精度と効率の重大なボトルネックに直面してきた。
制約データから汎用数学的表現を効率的に抽出する並列木探索(PCTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - LLM4ED: Large Language Models for Automatic Equation Discovery [0.8644909837301149]
我々は、自然言語に基づくプロンプトを利用して、データから支配方程式を自動的にマイニングする大規模言語モデルをガイドする新しいフレームワークを導入する。
具体的には、まずLLMの生成能力を利用して、文字列形式で様々な方程式を生成し、次に観測に基づいて生成された方程式を評価する。
実験は偏微分方程式と常微分方程式の両方で広範囲に行われる。
論文 参考訳(メタデータ) (2024-05-13T14:03:49Z) - LLM-SR: Scientific Equation Discovery via Programming with Large Language Models [17.64574496035502]
現在の方程式発見法は、典型的には記号回帰と呼ばれ、主にデータのみから方程式を抽出することに焦点を当てている。
LLM-SRは,大規模言語モデルの科学的知識とロバストなコード生成能力を活用する新しいアプローチである。
また, LLM-SRは, 最先端の記号的回帰ベースラインを著しく上回る物理精度の方程式を発見した。
論文 参考訳(メタデータ) (2024-04-29T03:30:06Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。