論文の概要: Can Large Language Models Autoformalize Kinematics?
- arxiv url: http://arxiv.org/abs/2509.21840v1
- Date: Fri, 26 Sep 2025 04:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.166892
- Title: Can Large Language Models Autoformalize Kinematics?
- Title(参考訳): 大規模言語モデルはキネマティクスを自動生成できるか?
- Authors: Aditi Kabra, Jonathan Laurent, Sagar Bharadwaj, Ruben Martins, Stefan Mitsch, André Platzer,
- Abstract要約: 本稿では,Large Language Models (LLM) が形式化プロセスを自動化するかどうかを実験的に検討する。
20問題ベンチマークスイートは、学部レベル物理学のキネマティクス問題から設計されている。
成功率70%(5サンプル以上)を達成し, 失敗事例を分析し, 今後の改善に向けての方向性を明らかにする。
- 参考スコア(独自算出の注目度): 7.540228378983482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous cyber-physical systems like robots and self-driving cars could greatly benefit from using formal methods to reason reliably about their control decisions. However, before a problem can be solved it needs to be stated. This requires writing a formal physics model of the cyber-physical system, which is a complex task that traditionally requires human expertise and becomes a bottleneck. This paper experimentally studies whether Large Language Models (LLMs) can automate the formalization process. A 20 problem benchmark suite is designed drawing from undergraduate level physics kinematics problems. In each problem, the LLM is provided with a natural language description of the objects' motion and must produce a model in differential game logic (dGL). The model is (1) syntax checked and iteratively refined based on parser feedback, and (2) semantically evaluated by checking whether symbolically executing the dGL formula recovers the solution to the original physics problem. A success rate of 70% (best over 5 samples) is achieved. We analyze failing cases, identifying directions for future improvement. This provides a first quantitative baseline for LLM-based autoformalization from natural language to a hybrid games logic with continuous dynamics.
- Abstract(参考訳): ロボットや自動運転車のような自律的なサイバー物理システムは、制御決定を確実に判断するために正式な方法を使用することで大きな恩恵を受けることができる。
しかし、問題が解決する前には、説明する必要がある。
これは、伝統的に人間の専門知識を必要とし、ボトルネックとなる複雑なタスクであるサイバー物理システムの正式な物理モデルを書く必要がある。
本稿では,Large Language Models (LLM) が形式化プロセスを自動化するかどうかを実験的に検討する。
20問題ベンチマークスイートは、学部レベル物理学のキネマティクス問題から設計されている。
各問題において、LLMはオブジェクトの動きを自然言語で記述し、ディファレンシャルゲームロジック(dGL)のモデルを生成する必要がある。
本モデルは,(1)構文チェックとパーサフィードバックに基づいて反復的に洗練され,(2)dGL式を記号的に実行したことが,元の物理問題に対する解を回復させるかどうかを,意味的に評価する。
成功率70%(5サンプル以上)が達成される。
失敗事例を分析し、今後の改善に向けた方向性を特定します。
これにより、LLMベースの自然言語から連続力学を持つハイブリッドゲームロジックへの自動形式化のための最初の定量的ベースラインが提供される。
関連論文リスト
- SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - SimLM: Can Language Models Infer Parameters of Physical Systems? [56.38608628187024]
物理系におけるパラメータ推論におけるLarge Language Models (LLM) の性能について検討する。
実験の結果,単純なシステムであっても,本課題には適していないことが示唆された。
物理シミュレータを用いてLLMのコンテキストを拡大する探索の有望な方向を提案する。
論文 参考訳(メタデータ) (2023-12-21T12:05:19Z) - Physics simulation capabilities of LLMs [0.0]
大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。
本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
論文 参考訳(メタデータ) (2023-12-04T18:06:41Z) - Automated Dissipation Control for Turbulence Simulation with Shell
Models [1.675857332621569]
機械学習(ML)技術の応用、特にニューラルネットワークは、画像や言語を処理する上で大きな成功を収めています。
本研究は,Gledzer-Ohkitani-yamadaシェルモデルを用いて,乱流の簡易表現を構築する。
本稿では,自己相似慣性範囲スケーリングなどの乱流の統計的特性を再構築する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T15:03:52Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Data-Efficient Learning for Complex and Real-Time Physical Problem
Solving using Augmented Simulation [49.631034790080406]
本稿では,大理石を円形迷路の中心まで航行する作業について述べる。
実システムと対話する数分以内に,複雑な環境で大理石を動かすことを学習するモデルを提案する。
論文 参考訳(メタデータ) (2020-11-14T02:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。