論文の概要: Data-Efficient Symbolic Regression via Foundation Model Distillation
- arxiv url: http://arxiv.org/abs/2508.19487v1
- Date: Wed, 27 Aug 2025 00:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.453586
- Title: Data-Efficient Symbolic Regression via Foundation Model Distillation
- Title(参考訳): 基礎モデル蒸留によるデータ効率の良いシンボリック回帰
- Authors: Wangyang Ying, Jinghan Zhang, Haoyue Bai, Nanxu Gong, Xinyuan Wang, Kunpeng Liu, Chandan K. Reddy, Yanjie Fu,
- Abstract要約: EQUATEは、蒸留を通じて低データ状態における記号方程式の発見に基礎モデルを適用するフレームワークである。
精度と堅牢性の両方において、最先端のベースラインを一貫して上回る。
これらの結果は、データ効率のシンボリックレグレッションのための実用的で一般化可能なソリューションとして、EQUATEを強調している。
- 参考スコア(独自算出の注目度): 34.0701397977874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discovering interpretable mathematical equations from observed data (a.k.a. equation discovery or symbolic regression) is a cornerstone of scientific discovery, enabling transparent modeling of physical, biological, and economic systems. While foundation models pre-trained on large-scale equation datasets offer a promising starting point, they often suffer from negative transfer and poor generalization when applied to small, domain-specific datasets. In this paper, we introduce EQUATE (Equation Generation via QUality-Aligned Transfer Embeddings), a data-efficient fine-tuning framework that adapts foundation models for symbolic equation discovery in low-data regimes via distillation. EQUATE combines symbolic-numeric alignment with evaluator-guided embedding optimization, enabling a principled embedding-search-generation paradigm. Our approach reformulates discrete equation search as a continuous optimization task in a shared embedding space, guided by data-equation fitness and simplicity. Experiments across three standard public benchmarks (Feynman, Strogatz, and black-box datasets) demonstrate that EQUATE consistently outperforms state-of-the-art baselines in both accuracy and robustness, while preserving low complexity and fast inference. These results highlight EQUATE as a practical and generalizable solution for data-efficient symbolic regression in foundation model distillation settings.
- Abstract(参考訳): 観測されたデータ(例えば、方程式の発見や記号回帰)から解釈可能な数学的方程式を発見することは、科学的発見の基礎であり、物理的、生物学的、経済的システムの透過的なモデリングを可能にする。
大規模方程式データセットで事前訓練された基礎モデルは、期待できる出発点を提供するが、小さなドメイン固有のデータセットに適用した場合、負の転送や一般化の欠如に悩まされることが多い。
本稿では,低データ状態下でのシンボル式発見に基礎モデルを適用したデータ効率の良い微調整フレームワークであるEQUATE(Equation Generation via QUality-Aligned Transfer Embeddings)を紹介する。
EQUATEは記号-数値アライメントと評価器誘導の埋め込み最適化を組み合わせることで、原則的な埋め込み-探索-生成パラダイムを実現する。
提案手法は,データ方程式の適合性と単純さによって導かれる,共有埋め込み空間における離散方程式探索を連続的な最適化タスクとして再構成する。
標準的な3つのベンチマーク(Feynman、Strogatz、Black-boxデータセット)での実験では、EQUATEは、複雑さと高速な推論を保ちながら、精度と堅牢性の両方において、最先端のベースラインを一貫して上回っている。
これらの結果は,基礎モデルの蒸留設定におけるデータ効率のよいシンボル回帰のための実用的で一般化可能な解として,EQUATEを際立たせる。
関連論文リスト
- Symbolic identification of tensor equations in multidimensional physical fields [33.45491146202116]
本稿では,テンソル方程式を定式化するためのデータ駆動型フレームワークを提案する。
ホストプラスミド構造を用いたテンソル方程式のSITEのコアアイデアは、多次元遺伝子発現プログラミング(M-GEP)アプローチに着想を得たものである。
2つのベンチマークシナリオを用いてSITEを検証し、合成データからターゲット方程式を正確に復元し、ノイズに対するロバスト性やサンプルサイズを小さくする。
論文 参考訳(メタデータ) (2025-07-02T08:25:05Z) - MaD-Scientist: AI-based Scientist solving Convection-Diffusion-Reaction Equations Using Massive PINN-Based Prior Data [22.262191225577244]
科学的基礎モデル(SFM)にも同様のアプローチが適用できるかどうかを考察する。
数学辞書の任意の線形結合によって構築された偏微分方程式(PDE)の解の形で、低コストな物理情報ニューラルネットワーク(PINN)に基づく近似された事前データを収集する。
本研究では,1次元対流拡散反応方程式に関する実験的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-09T00:52:00Z) - Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。
既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。
本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文 参考訳(メタデータ) (2023-12-30T17:05:31Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Low-rank statistical finite elements for scalable model-data synthesis [0.8602553195689513]
statFEMは、支配方程式に強制を埋め込むことによって、事前モデルの誤特定を認める。
この方法は、観測されたデータ生成過程を最小限の情報損失で再構築する。
本稿では、下層の密度共分散行列の低ランク近似を埋め込むことで、このハードルを克服する。
論文 参考訳(メタデータ) (2021-09-10T09:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。