論文の概要: Coding Agent Is Good As World Simulator
- arxiv url: http://arxiv.org/abs/2605.14398v1
- Date: Thu, 14 May 2026 05:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.640965
- Title: Coding Agent Is Good As World Simulator
- Title(参考訳): コーディングエージェントは、世界シミュレーターとして良い
- Authors: Hongyu Wang, Jingquan Wang, Bocheng Zou, Radu Serban, Dan Negrut,
- Abstract要約: 本稿では,物理に基づく世界モデル構築のためのエージェントフレームワークを提案する。
このフレームワークは、計画、コード生成、ビジュアルレビュー、物理分析エージェントを調整する。
実験の結果,本フレームワークは,物理精度,命令忠実度,視覚的品質において,高度な映像ベースモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 5.161736405778465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have emerged as a powerful paradigm for building interactive simulation environments, with recent video-based approaches demonstrating impressive progress in generating visually plausible dynamics. However, because these models typically infer dynamics from video and represent them in latent states, they do not explicitly enforce physical constraints. As a result, the generated video rollouts are not physically plausible, exhibiting unstable contacts, distorted shapes, or inconsistent motion. In this paper, we present an agentic framework constructing physics-based world models through executable simulation code. The framework coordinates planning, code generation, visual review, and physics analysis agents. The planning agent converts the natural language prompt into a structured scene plan, the code agent implements it as executable simulation code, and the visual review agent provide visual feedback while the physics analysis agent checks physical consistency. The code is iteratively revised based on the feedback until the simulation matches the prompt reqirements and physical constraints. Experimental results show that our framework outperforms advanced video-based models in physical accuracy, instruction fidelity and visual quality, which could be applied to various scenarios including driving simulation and embodied robot tasks.
- Abstract(参考訳): インタラクティブなシミュレーション環境を構築するための強力なパラダイムとして、世界モデルが登場した。
しかしながら、これらのモデルは典型的にはビデオからダイナミックスを推論し、潜在状態で表現するため、物理的制約を明示的に強制することはない。
その結果、生成されたビデオロールアウトは物理的に妥当ではなく、不安定な接触、歪んだ形状、または一貫性のない動きを示す。
本稿では,物理に基づく世界モデル構築のためのエージェントフレームワークを提案する。
このフレームワークは、計画、コード生成、ビジュアルレビュー、物理分析エージェントを調整する。
計画エージェントは、自然言語プロンプトを構造化シーンプランに変換し、コードエージェントは実行可能なシミュレーションコードとして実装し、視覚的レビューエージェントは、物理解析エージェントが物理的整合性をチェックする間、視覚的フィードバックを提供する。
シミュレーションが迅速なリクイアメントと物理的な制約にマッチするまで、フィードバックに基づいてコードを反復的に修正する。
実験結果から,本フレームワークは物理精度,命令忠実度,視覚的品質において,高度な映像ベースモデルよりも優れており,運転シミュレーションやロボットの具体化タスクなど,様々なシナリオに適用可能であることが示された。
関連論文リスト
- PhyCo: Learning Controllable Physical Priors for Generative Motion [55.59209981836171]
本稿では,ビデオ生成に連続的,解釈可能,物理的に接地された制御を導入するフレームワークであるPhyCoを紹介する。
i) 摩擦, 再構成, 変形, 力が様々なシナリオで体系的に変化する100K以上のフォトリアリスティック・シミュレーション・ビデオの大規模データセット, (ii) 物理制御された拡散モデルの微調整, (iii) VLM誘導報酬最適化, 微調整された視覚言語モデルにより、対象とする物理クエリを用いて生成されたビデオを評価し、異なるフィードバックを提供する。
論文 参考訳(メタデータ) (2026-04-30T17:53:03Z) - Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - Perceptual Self-Reflection in Agentic Physics Simulation Code Generation [0.0]
本稿では,自然言語記述から物理シミュレーションコードを生成するフレームワークを提案する。
主要なイノベーションは知覚的検証であり、視覚能力のある言語モデルを使用してレンダリングされたアニメーションフレームを分析する。
本研究では, 古典力学, 流体力学, 熱力学, 電磁学, 波動物理学, 反応拡散系, 非物理データ可視化を含む7分野にわたるシステム評価を行った。
論文 参考訳(メタデータ) (2026-02-12T15:48:33Z) - VisPhyWorld: Probing Physical Reasoning via Code-Driven Video Reconstruction [48.60465268759689]
VisPhyWorldは、物理推論を評価する実行ベースのフレームワークである。
実行可能コードを生成することで、推論された世界表現は直接検査可能、編集可能、偽造可能となる。
現状のMLLMは強いセマンティックなシーン理解を実現する一方で、物理的パラメータを正確に推測し、一貫した物理力学をシミュレートするのに苦労していることを示す。
論文 参考訳(メタデータ) (2026-02-09T05:46:44Z) - SIMPACT: Simulation-Enabled Action Planning using Vision-Language Models [60.80050275581661]
VLM(Vision-Language Models)は、目覚しい常識と意味論的推論能力を示す。
物理力学に関する基礎的な理解は欠如している。
テストタイムでシミュレーション可能な ACTion Planning フレームワークである S を提案する。
本手法は,5つの難易度,実世界の剛体および変形可能な操作課題に対して,最先端の性能を示す。
論文 参考訳(メタデータ) (2025-12-05T18:51:03Z) - Real-to-Sim Robot Policy Evaluation with Gaussian Splatting Simulation of Soft-Body Interactions [27.247431258140463]
本稿では,現実の映像からソフトボディのディジタルツインを構築するための,リアル・トゥ・シミュレート・ポリシー評価フレームワークを提案する。
我々は,ぬいぐるみのパッキング,ロープルーティング,Tブロックプッシュなど,代表的な変形可能な操作タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-11-06T18:52:08Z) - GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。
我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。
さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文 参考訳(メタデータ) (2024-12-23T18:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。