論文の概要: SimuScene: Training and Benchmarking Code Generation to Simulate Physical Scenarios
- arxiv url: http://arxiv.org/abs/2602.10840v1
- Date: Wed, 11 Feb 2026 13:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.930566
- Title: SimuScene: Training and Benchmarking Code Generation to Simulate Physical Scenarios
- Title(参考訳): SimuScene: 物理シナリオをシミュレートするためのトレーニングとベンチマークコード生成
- Authors: Yanan Wang, Renxi Wang, Yongxin Wang, Xuezhi Liang, Fajri Koto, Timothy Baldwin, Xiaodan Liang, Haonan Li,
- Abstract要約: 大規模言語モデル(LLM)は、数学の競争、複雑なコーディング、科学的推論といったタスクのために広く研究されている。
物理シナリオをシミュレートしてLLMを訓練し,評価する最初の体系的な研究であるSimuSceneを提案する。
品質を保証するために、人間の検証とともに、データ収集のための自動パイプラインを構築します。
- 参考スコア(独自算出の注目度): 71.65387146697319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been extensively studied for tasks like math competitions, complex coding, and scientific reasoning, yet their ability to accurately represent and simulate physical scenarios via code remains underexplored. We propose SimuScene, the first systematic study that trains and evaluates LLMs on simulating physical scenarios across five physics domains and 52 physical concepts. We build an automatic pipeline to collect data, with human verification to ensure quality. The final dataset contains 7,659 physical scenarios with 334 human-verified examples as the test set. We evaluated 10 contemporary LLMs and found that even the strongest model achieves only a 21.5% pass rate, demonstrating the difficulty of the task. Finally, we introduce a reinforcement learning pipeline with visual rewards that uses a vision-language model as a judge to train textual models. Experiments show that training with our data improves physical simulation via code while substantially enhancing general code generation performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学の競争、複雑なコーディング、科学的推論といったタスクのために広く研究されてきたが、コードを通して物理的なシナリオを正確に表現し、シミュレートする能力は、まだ未熟である。
5つの物理領域と52の物理概念の物理シナリオをシミュレートしてLLMを訓練し評価する最初の体系的研究であるSimuSceneを提案する。
品質を保証するために、人間の検証とともに、データ収集のための自動パイプラインを構築します。
最終データセットには7,659の物理シナリオが含まれており、テストセットとして334の人間が検証された例がある。
10個の現代LCMを評価し,最強モデルでも21.5%のパス率しか達成できず,課題の難しさが示された。
最後に、視覚的報酬を伴う強化学習パイプラインを導入し、視覚言語モデルを用いてテキストモデルを訓練する。
実験により,我々のデータによるトレーニングは,一般的なコード生成性能を大幅に向上させながら,コードによる物理シミュレーションを改善することが示された。
関連論文リスト
- RealPDEBench: A Benchmark for Complex Physical Systems with Real-World Data [25.53943767088309]
本稿では,実世界計測とペア数値シミュレーションを統合した科学機械学習(ML)の最初のベンチマークであるRealPDEBenchを紹介する。
RealPDEBenchは5つのデータセット、3つのタスク、8つのメトリクス、10のベースラインで構成される。
実験では、シミュレーションデータと実世界のデータの間に大きな相違点が示され、シミュレーションデータによる事前学習は、精度と収束性の両方を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-01-05T06:49:13Z) - FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs [2.3052479658146323]
有限要素法(FEM)および関連コードを生成するためのLCMの能力を評価するためのベンチマークであるFEM-Benchを紹介する。
これらのタスクは、その分野に存在する複雑さのごく一部を表現しながら、不可欠な数値および物理モデリングの課題を捉えている。
関数記述における最高のパフォーマンスモデルであるGemini 3 Proは、少なくとも1回は30/33タスクを、5回ごとに26/33タスクを完了した。
論文 参考訳(メタデータ) (2025-12-23T19:40:51Z) - SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - PhysiX: A Foundation Model for Physics Simulations [27.359872113159405]
物理シミュレーションのための最初の大規模基礎モデルであるPhysorXを紹介する。
PhysiXはデータボトルネックに効果的に対処し、タスク固有のベースラインを上回ります。
その結果,自然ビデオから学んだ知識が物理シミュレーションにうまく移行できることが示唆された。
論文 参考訳(メタデータ) (2025-06-21T18:10:12Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [11.282655911647483]
視覚言語モデル(VLM)における物理推論の課題
物理コンテキストビルダー(PCB)は,物理シーンの詳細な記述を生成するために,より小型のVLMを微調整したモジュラーフレームワークである。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Task2Sim : Towards Effective Pre-training and Transfer from Synthetic
Data [74.66568380558172]
本稿では,グラフィックスシミュレータから下流タスクへの合成データに基づく事前学習モデルの転送可能性について検討する。
本稿では、最適なシミュレーションパラメータに対する下流タスク表現を統一したモデルマッピングであるTask2Simを紹介する。
このマッピングはトレーニングによって学習し、"見える"タスクのセットで最適なパラメータのセットを見つける。
トレーニングが完了すると、ワンショットで新しい"見えない"タスクの最適なシミュレーションパラメータを予測するために使用することができる。
論文 参考訳(メタデータ) (2021-11-30T19:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。