論文の概要: LLM-Based Scientific Equation Discovery via Physics-Informed Token-Regularized Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.10576v1
- Date: Wed, 11 Feb 2026 07:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.519882
- Title: LLM-Based Scientific Equation Discovery via Physics-Informed Token-Regularized Policy Optimization
- Title(参考訳): 物理インフォームドトークン正規化政策最適化によるLLMに基づく科学的方程式発見
- Authors: Boxiao Wang, Kai Li, Tianyi Liu, Chen Li, Junzhe Wang, Yifan Zhang, Jian Cheng,
- Abstract要約: PiT-POは、Large Language Modelsを強化学習を通じて適応ジェネレータに進化させる統一フレームワークである。
PiT-POの中心は、2重拘束機構であり、冗長構造を抑えるために微細でトークンレベルのペナルティを同時に適用しながら、階層的な物理的妥当性を厳格に強制する。
実証的に、PiT-POは標準ベンチマークで最先端のパフォーマンスを達成し、流体力学問題に挑戦する新しい乱流モデルを発見することに成功した。
- 参考スコア(独自算出の注目度): 32.24464649397858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic regression aims to distill mathematical equations from observational data. Recent approaches have successfully leveraged Large Language Models (LLMs) to generate equation hypotheses, capitalizing on their vast pre-trained scientific priors. However, existing frameworks predominantly treat the LLM as a static generator, relying on prompt-level guidance to steer exploration. This paradigm fails to update the model's internal representations based on search feedback, often yielding physically inconsistent or mathematically redundant expressions. In this work, we propose PiT-PO (Physics-informed Token-regularized Policy Optimization), a unified framework that evolves the LLM into an adaptive generator via reinforcement learning. Central to PiT-PO is a dual-constraint mechanism that rigorously enforces hierarchical physical validity while simultaneously applying fine-grained, token-level penalties to suppress redundant structures. Consequently, PiT-PO aligns LLM to produce equations that are both scientifically consistent and structurally parsimonious. Empirically, PiT-PO achieves state-of-the-art performance on standard benchmarks and successfully discovers novel turbulence models for challenging fluid dynamics problems. We also demonstrate that PiT-PO empowers small-scale models to outperform closed-source giants, democratizing access to high-performance scientific discovery.
- Abstract(参考訳): 記号回帰は、観測データから数学的方程式を蒸留することを目的としている。
近年のアプローチでは、Large Language Models (LLMs) を利用して方程式仮説を導出し、その膨大な事前学習された科学的な先例を生かしている。
しかし、既存のフレームワークは主にLLMを静的なジェネレータとして扱い、スタイア探索のための即時的なガイダンスに依存している。
このパラダイムは、探索フィードバックに基づくモデルの内部表現の更新に失敗し、しばしば物理的に矛盾するあるいは数学的に冗長な表現をもたらす。
本研究では,LLMを強化学習により適応生成器に進化させる統一的なフレームワークであるPiT-POを提案する。
PiT-POの中心は、2重拘束機構であり、冗長構造を抑えるために微細でトークンレベルのペナルティを同時に適用しながら、階層的な物理的妥当性を厳格に強制する。
その結果、PiT-PO は LLM と整列し、科学的に一貫性があり、構造的に同相な方程式を生成する。
実証的に、PiT-POは標準ベンチマークで最先端のパフォーマンスを達成し、流体力学問題に挑戦する新しい乱流モデルを発見することに成功した。
また、PiT-POは、小規模なモデルでクローズドソースの巨人より優れており、高性能な科学的発見へのアクセスを民主化しています。
関連論文リスト
- Potential failures of physics-informed machine learning in traffic flow modeling: theoretical and experimental analysis [5.055539099879598]
本研究では,物理インフォームド・機械学習 (PIML) がマクロな交通流モデリングに失敗する原因について検討する。
障害を、PIMLモデルが純粋にデータ駆動と純粋に物理ベースラインの両方を所定の閾値で下回る場合として定義する。
LWRベースのPIMLが高解像度のデータでもARZベースのPIMLより優れている理由を説明する。
論文 参考訳(メタデータ) (2025-05-16T17:55:06Z) - Physics Informed Deep Learning for Strain Gradient Continuum Plasticity [0.0]
我々は、物理情報深層学習に基づく時空間離散化を用いて、速度依存ひずみ勾配塑性モデルの解を近似する。
物理情報ニューラルネットワークからインスピレーションを得て、PIDLモデルの損失関数をいくつかの新しい方法で修正する。
本稿では, PIDL法がひずみ可塑性モデルによって生じる計算問題にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2024-08-13T06:02:05Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。