論文の概要: SciML Agents: Write the Solver, Not the Solution
- arxiv url: http://arxiv.org/abs/2509.09936v1
- Date: Fri, 12 Sep 2025 02:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.963725
- Title: SciML Agents: Write the Solver, Not the Solution
- Title(参考訳): SciMLエージェント: ソリューションではなく、ソリューションを書く
- Authors: Saarth Gaonkar, Xiang Zheng, Haocheng Xi, Rishabh Tiwari, Kurt Keutzer, Dmitriy Morozov, Michael W. Mahoney, Amir Gholami,
- Abstract要約: 敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
- 参考スコア(独自算出の注目度): 69.5021018644143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in scientific machine learning aims to tackle scientific tasks directly by predicting target values with neural networks (e.g., physics-informed neural networks, neural ODEs, neural operators, etc.), but attaining high accuracy and robustness has been challenging. We explore an alternative view: use LLMs to write code that leverages decades of numerical algorithms. This shifts the burden from learning a solution function to making domain-aware numerical choices. We ask whether LLMs can act as SciML agents that, given a natural-language ODE description, generate runnable code that is scientifically appropriate, selecting suitable solvers (stiff vs. non-stiff), and enforcing stability checks. There is currently no benchmark to measure this kind of capability for scientific computing tasks. As such, we first introduce two new datasets: a diagnostic dataset of adversarial "misleading" problems; and a large-scale benchmark of 1,000 diverse ODE tasks. The diagnostic set contains problems whose superficial appearance suggests stiffness, and that require algebraic simplification to demonstrate non-stiffness; and the large-scale benchmark spans stiff and non-stiff ODE regimes. We evaluate open- and closed-source LLM models along two axes: (i) unguided versus guided prompting with domain-specific knowledge; and (ii) off-the-shelf versus fine-tuned variants. Our evaluation measures both executability and numerical validity against reference solutions. We find that with sufficient context and guided prompts, newer instruction-following models achieve high accuracy on both criteria. In many cases, recent open-source systems perform strongly without fine-tuning, while older or smaller models still benefit from fine-tuning. Overall, our preliminary results indicate that careful prompting and fine-tuning can yield a specialized LLM agent capable of reliably solving simple ODE problems.
- Abstract(参考訳): 科学機械学習における最近の研究は、ニューラルネットワーク(物理インフォームドニューラルネットワーク、ニューラルODE、ニューラル演算子など)で目標値を予測することによって、科学的なタスクに直接取り組むことを目的としているが、高い精度と堅牢性を達成することは困難である。
LLMを使って何十年もの数値アルゴリズムを活用するコードを書く。
これにより、ソリューション関数の学習から、ドメイン対応の数値選択へと、負担がシフトする。
我々は、LLMがSciMLエージェントとして機能し、自然言語のODE記述を付与し、科学的に適切な実行可能なコードを生成し、適切な解法(スティフ対ノンスティフ)を選択し、安定性チェックを強制するかどうかを問う。
現在、科学計算タスクのこの種の能力を測定するためのベンチマークはありません。
そこで我々はまず,対立する「誤解を招く」問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
診断セットは表面的な外観が剛性を示し、非剛性を示すために代数的単純化を必要とする問題を含む。
オープンおよびクローズドソース LLM モデルを2つの軸に沿って評価する。
(i)非指導的・指導的・ドメイン特有知識の促進
(ii)オフ・ザ・シェルフ対微調整変種
本評価は,参照解に対する実行可能性と数値的妥当性を両立させる。
十分なコンテキストとガイド付きプロンプトにより、より新しい命令追従モデルが両方の基準で高い精度を達成することが判明した。
多くの場合、最近のオープンソースシステムは微調整なしで強力に動作しますが、古いまたは小さなモデルは依然として微調整の恩恵を受けます。
概して,本研究の予備的結果は,簡単なODE問題を確実に解くことのできる特殊なLDMエージェントを,注意深いプロンプトと微調整で実現可能であることを示唆している。
関連論文リスト
- From Text to Trajectories: GPT-2 as an ODE Solver via In-Context [44.198609457344574]
In-Context Learning (ICL)は、大規模言語モデル(LLM)における新しいパラダイムとして登場した。
本稿では, LLM が通常の微分方程式(ODE)を ICL 設定下で解くことができるかどうかを検討する。
2種類のODEの実験により、GPT-2はEuler法と同等かそれ以上の収束挙動を持つメタODEアルゴリズムを効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2025-08-05T03:16:37Z) - Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - A Semantic-based Optimization Approach for Repairing LLMs: Case Study on Code Generation [32.178931149612644]
言語モデル(LM)は、コード生成のためのソフトウェア工学で広く使われている。
生成されたコードを修正する代わりに、モデルの基礎となる障害に対処する別の方法がある。
本稿では, セマンティック・ターゲット・フォー・アナライザ・リカバリ (STAR) を提案し, セマンティック・ターゲット・フォー・アナライザ・リカバリ (STAR) の先駆的かつ新しいセマンティック・ベース・最適化手法を提案する。
論文 参考訳(メタデータ) (2025-03-17T07:59:42Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。
textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文 参考訳(メタデータ) (2023-12-08T20:28:08Z) - Winning solutions and post-challenge analyses of the ChaLearn AutoDL
challenge 2019 [112.36155380260655]
本稿では,ChaLearnのAutoDLチャレンジシリーズの結果と今後の課題について述べる。
その結果,一般的なニューラルネットワーク探索(NAS)は実用的ではなかったものの,DL手法が支配的であったことが示唆された。
メタラーナー"、"データインジェクタ"、"モデルセレクタ"、"モデル/ラーナー"、"評価器"を特徴とする、ハイレベルなモジュール化組織が登場した。
論文 参考訳(メタデータ) (2022-01-11T06:21:18Z) - Meta-Solver for Neural Ordinary Differential Equations [77.8918415523446]
本研究では,ソルバ空間の変動がニューラルODEの性能を向上する方法について検討する。
解法パラメータ化の正しい選択は, 敵の攻撃に対するロバスト性の観点から, 神経odesモデルに大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2021-03-15T17:26:34Z) - ResNet After All? Neural ODEs and Their Numerical Solution [28.954378025052925]
訓練されたニューラル正規微分方程式モデルは、実際にトレーニング中に使用される特定の数値法に依存していることを示す。
本稿では,ODEソルバの動作を学習中に監視し,ステップサイズを適応させる手法を提案する。
論文 参考訳(メタデータ) (2020-07-30T11:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。