論文の概要: Physics simulation capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2312.02091v2
- Date: Mon, 2 Sep 2024 10:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:02:40.449427
- Title: Physics simulation capabilities of LLMs
- Title(参考訳): LLMの物理シミュレーション能力
- Authors: Mohamad Ali-Dib, Kristen Menou,
- Abstract要約: 大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。
本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: [Abridged abstract] Large Language Models (LLMs) can solve some undergraduate-level to graduate-level physics textbook problems and are proficient at coding. Combining these two capabilities could one day enable AI systems to simulate and predict the physical world. We present an evaluation of state-of-the-art (SOTA) LLMs on PhD-level to research-level computational physics problems. We condition LLM generation on the use of well-documented and widely-used packages to elicit coding capabilities in the physics and astrophysics domains. We contribute $\sim 50$ original and challenging problems in celestial mechanics (with REBOUND), stellar physics (with MESA), 1D fluid dynamics (with Dedalus) and non-linear dynamics (with SciPy). Since our problems do not admit unique solutions, we evaluate LLM performance on several soft metrics: counts of lines that contain different types of errors (coding, physics, necessity and sufficiency) as well as a more "educational" Pass-Fail metric focused on capturing the salient physical ingredients of the problem at hand. As expected, today's SOTA LLM (GPT4) zero-shot fails most of our problems, although about 40\% of the solutions could plausibly get a passing grade. About $70-90 \%$ of the code lines produced are necessary, sufficient and correct (coding \& physics). Physics and coding errors are the most common, with some unnecessary or insufficient lines. We observe significant variations across problem class and difficulty. We identify several failure modes of GPT4 in the computational physics domain. Our reconnaissance work provides a snapshot of current computational capabilities in classical physics and points to obvious improvement targets if AI systems are ever to reach a basic level of autonomy in physics simulation capabilities.
- Abstract(参考訳): [Abridged abstract]Large Language Models (LLMs)は、学部レベルから大学院レベルの物理教科書の問題を解くことができ、コーディングに精通している。
これら2つの能力を組み合わせることで、いつかAIシステムが物理的な世界をシミュレートし予測できるようになるだろう。
本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
物理・天体物理学領域における符号化能力を引き出すために, 文書化・広く利用されているパッケージを用いてLCM生成を行う。
我々は、天体力学(REBOUND)、恒星物理学(MESA)、1次元流体力学(Dedalus)、非線形力学(SciPy)において、$\sim 50$のオリジナルかつ挑戦的な問題に貢献する。
我々の問題は、ユニークな解を認めていないため、異なるタイプのエラー(コーディング、物理、必要性、十分性)を含む行数と、その問題の健全な物理成分を捉えることに焦点を当てた、より「教育的な」パスフェイル測定値という、いくつかのソフトメトリクス上でのLLM性能を評価する。
予想通り、今日のSOTA LLM(GPT4)ゼロショットは、ほとんどの問題に失敗する。
生成したコード行の約70-90 %$は必要であり、十分で正しい(コード \&物理)。
物理とコーディングのエラーが最も一般的で、不必要な線や不十分な線がある。
問題クラスと難易度に有意なばらつきを観察する。
我々は計算物理領域におけるGPT4のいくつかの障害モードを同定する。
我々の偵察作業は、古典物理学における現在の計算能力のスナップショットを提供し、もしAIシステムが物理学シミュレーション能力において基本的な自律性に達することがあれば、明らかな改善目標を指摘する。
関連論文リスト
- MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering [32.87943023416162]
マルチモーダル物理MCQに応答するLMMモデルを提案する。
ドメイン適応には、インドの高校レベルのマルチモーダル物理問題からなるMM-PhyQAデータセットを利用する。
画像キャプションでは、各画像に図の詳細な説明を加え、幻覚と画像処理エラーを最小限に抑える。
論文 参考訳(メタデータ) (2024-04-19T14:52:57Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Building Flexible Machine Learning Models for Scientific Computing at Scale [35.41293100957156]
OmniArchは,物理アライメントによるマルチスケール・マルチ物理科学計算問題の解決を目的とした,最初のプロトタイプである。
PDEBench上で1D-2D-3Dの統合事前トレーニングを行い、1D, 2D, 3D PDEの新たなパフォーマンスベンチマークを設定するだけでなく、コンテキスト内およびゼロショット学習アプローチによる新しい物理への例外的な適応性を示す。
論文 参考訳(メタデータ) (2024-02-25T07:19:01Z) - Using Large Language Model to Solve and Explain Physics Word Problems
Approaching Human Level [0.0]
テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学語問題だけでなく、物理語問題も解ける。
我々の研究は、物理語問題の自動解法、説明、生成に焦点を当てた最初の研究である。
論文 参考訳(メタデータ) (2023-09-15T06:13:06Z) - Learning Controllable Adaptive Simulation for Multi-resolution Physics [86.8993558124143]
完全深層学習に基づくサロゲートモデルとして,LAMP(Learning Controllable Adaptive Simulation for Multi- resolution Physics)を導入した。
LAMPは、前方進化を学習するためのグラフニューラルネットワーク(GNN)と、空間的洗練と粗大化のポリシーを学ぶためのGNNベースのアクター批判で構成されている。
我々は,LAMPが最先端のディープラーニングサロゲートモデルより優れており,長期予測誤差を改善するために,適応的なトレードオフ計算が可能であることを実証した。
論文 参考訳(メタデータ) (2023-05-01T23:20:27Z) - Physics Embedded Machine Learning for Electromagnetic Data Imaging [83.27424953663986]
電磁法(EM)イメージングは、セキュリティ、バイオメディシン、地球物理学、各種産業のセンシングに広く応用されている。
機械学習(ML)技術,特に深層学習(DL)技術は,高速かつ正確な画像化の可能性を秘めている。
本稿では、学習に基づくEMイメージングに物理を取り入れる様々なスキームについて検討する。
論文 参考訳(メタデータ) (2022-07-26T02:10:15Z) - An extended physics informed neural network for preliminary analysis of
parametric optimal control problems [0.0]
本研究では、パラメトリック偏微分方程式に対する教師付き学習戦略の拡張を提案する。
我々の主な目標は、パラメトリケート現象を短時間でシミュレートする物理情報学習パラダイムを提供することです。
論文 参考訳(メタデータ) (2021-10-26T09:39:05Z) - A Review of Physics-based Machine Learning in Civil Engineering [0.0]
機械学習(ML)は多くの分野に適用可能な重要なツールである。
研究室でシミュレートされた土木工学アプリケーションのためのMLは、現実世界のテストでは失敗することが多い。
本稿では,物理に基づくMLの歴史と土木工学への応用について概説する。
論文 参考訳(メタデータ) (2021-10-09T15:50:21Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z) - Scalable Differentiable Physics for Learning and Control [99.4302215142673]
微分物理学は、物理的対象や環境を含む問題を学習し、制御するための強力なアプローチである。
我々は、多数のオブジェクトとその相互作用をサポートすることができる微分可能物理学のためのスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2020-07-04T19:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。