論文の概要: Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback
- arxiv url: http://arxiv.org/abs/2605.29184v1
- Date: Wed, 27 May 2026 23:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.56292
- Title: Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback
- Title(参考訳): インフルエンスガイド型シンボリック回帰:グラニュラーフィードバックを用いたLCM駆動方程式探索による科学的発見
- Authors: Evgeny S. Saveliev, Samuel Holt, Nabeel Seedat, David L. Bentley, Jim Weatherall, Mihaela van der Schaar,
- Abstract要約: 逐次的2段階プロセスとして方程式発見をフレーム化する方法である textitInfluence-Guided Regression (IGSR) を導入する。
LLM-SRBench, 薬理学的PKPDモデル, 疫学シミュレーション, 実世界のゲノムデータなど, IGSRの有効性を示す。
- 参考スコア(独自算出の注目度): 56.69850045068714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) offer a promising avenue for scientific discovery, yet their application to symbolic regression is often constrained by inefficient search strategies and coarse feedback signals. Current methods typically guide LLMs using scalar metrics (e.g., global Mean Squared Error), which fail to identify which components of a proposed equation are driving performance or causing error. We introduce \textit{Influence-Guided Symbolic Regression} (IGSR), a method that frames equation discovery as an iterative two-step process combining diverse term generation with rigorous selection: an LLM generates candidate basis functions $ψ_j(\mathbf{x})$ for a linear model, which are then evaluated using granular influence scores $Δ_j$. These scores quantify each term's marginal contribution to generalization accuracy, enabling an influence-guided pruning process that systematically refines the model structure. Integrating this mechanism into a Monte Carlo Tree Search (MCTS) enables navigating the combinatorial search space while balancing exploration of novel functional forms with exploitation of high-influence components. We demonstrate IGSR's effectiveness on a diverse suite of benchmarks, including LLM-SRBench, pharmacological PKPD models, an epidemiological simulation, and real-world genomic data. Notably, we validate the framework's capacity for genuine discovery in a case study using a high-dimensional biological dataset, in which IGSR identified a novel relationship between DNA methylation and RNA Polymerase II pausing; a hypothesis that was subsequently supported via wet-lab experimentation.
- Abstract(参考訳): 大規模言語モデル (LLMs) は科学的発見のための有望な道筋を提供するが、その象徴的回帰への応用は、しばしば非効率的な探索戦略と粗いフィードバック信号によって制約される。
現在の手法では、スカラーメトリクス(例:グローバル平均正方形誤差)を使用してLCMを誘導するが、これは提案された方程式のどのコンポーネントが性能を駆動しているか、あるいはエラーを引き起こすかを特定するのに失敗する。
線形モデルに対して LLM が候補基底関数 $ _j(\mathbf{x})$ を生成し,粒度の影響スコア $Δ_j$ を用いて評価する。
これらのスコアは、各項の限界寄与を一般化精度に定量化し、モデル構造を体系的に洗練する影響誘導プルーニングプロセスを可能にする。
この機構をモンテカルロ木探索 (MCTS) に統合することで、高影響成分の活用による新しい機能形態の探索のバランスを保ちながら、組合せ探索空間をナビゲートすることができる。
LLM-SRBench, 薬理学PKPDモデル, 疫学シミュレーション, 実世界のゲノムデータなど, IGSRの有効性を示す。
IGSRはDNAメチル化とRNAポリメラーゼIIパジングの新規な関係を同定し,その後湿式実験によって支持された仮説である。
関連論文リスト
- Programmatic Context Augmentation for LLM-based Symbolic Regression [65.01826333382738]
大規模言語モデル(LLM)に基づく進化的探索手法が記号回帰に導入されている。
本稿では,プログラム的文脈拡張を取り入れたLLMに基づく進化的検索フレームワークを提案する。
本手法では,データ解析と情報信号抽出を積極的に行うことができる。
論文 参考訳(メタデータ) (2026-05-04T19:34:03Z) - A novel hybrid approach for positive-valued DAG learning [60.917028769172795]
正値データから有向非巡回グラフ(DAG)を学習するためのHybrid Moment-Ratio Scoring (H-MRS)アルゴリズムを提案する。
H-MRSは、モーメント比推定のためのログスケールリッジ回帰と、生のスケールモーメント比に基づくグレディオーダー処理を統合する。
合成対数線形データの実験は、競合精度とリコールを示す。
論文 参考訳(メタデータ) (2026-04-10T04:04:26Z) - ES-Merging: Biological MLLM Merging via Embedding Space Signals [52.84455878597969]
埋め込み空間信号からマージ係数を推定する表現対応マージフレームワークを提案する。
提案手法は既存のマージ手法よりも優れており,タスク固有の微調整モデルを超えている。
論文 参考訳(メタデータ) (2026-03-15T14:38:32Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - DrSR: LLM based Scientific Equation Discovery with Dual Reasoning from Data and Experience [14.093206703519103]
DrSRは、データ駆動の洞察と反射学習を組み合わせて、堅牢性と発見能力の両方を強化するフレームワークである。
物理学、化学、生物学、材料科学における学際的なデータセットにわたる実験は、DrSRが有効な方程式率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-06-04T04:52:34Z) - Learning sparse generalized linear models with binary outcomes via iterative hard thresholding [20.28503550819373]
統計学において、一般化線形モデル(GLM)はデータモデリングに広く用いられている。
本稿では,2次反復型ハードしきい値(BIHT)と呼ばれる反復型ハードしきい値(ReLU損失に対する投射勾配勾配)アルゴリズムの使用と解析を提案する。
BIHTは統計的に効率的であり、スパースバイナリGLMの一般クラスにおいてパラメータ推定のための正しい解に収束することを示す。
論文 参考訳(メタデータ) (2025-02-25T17:42:33Z) - Stochastic gradient descent estimation of generalized matrix factorization models with application to single-cell RNA sequencing data [39.146761527401424]
単細胞RNAシークエンシングは、個々の細胞レベルでの遺伝子発現の定量化を可能にする。
次元の減少は、サンプルの可視化、クラスタリング、表現型特徴付けに不可欠な一般的な前処理ステップである。
一般指数分散族分布を仮定した一般化行列分解モデルを提案する。
提案手法は, 数百万セルにシームレスに拡張可能であることを示し, 大規模単一セルデータセットの次元性低減を実現する。
論文 参考訳(メタデータ) (2024-12-29T16:02:15Z) - AutoTurb: Using Large Language Models for Automatic Algebraic Model Discovery of Turbulence Closure [15.905369652489505]
本研究では,LLMを用いてレイノルズ応力モデルを修正するための表現を自動的に検出する新しいフレームワークを提案する。
提案手法は,Re = 10,595 で周期的な丘を横断する流れを分離するためのものである。
The corrective RANS can improve the prediction for the Reynolds stress and mean velocity field。
論文 参考訳(メタデータ) (2024-10-14T16:06:35Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。