論文の概要: Simulating Environments with Reasoning Models for Agent Training
- arxiv url: http://arxiv.org/abs/2511.01824v1
- Date: Mon, 03 Nov 2025 18:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.370599
- Title: Simulating Environments with Reasoning Models for Agent Training
- Title(参考訳): エージェント訓練のための推論モデルを用いた環境シミュレーション
- Authors: Yuetai Li, Huseyin A Inan, Xiang Yue, Wei-Ning Chen, Lukas Wutschitz, Janardhan Kulkarni, Radha Poovendran, Robert Sim, Saravan Rajmohan,
- Abstract要約: トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 55.98861707136674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents excel in compact environments requiring deep reasoning but remain brittle when operating in broader, more complex contexts that demand robustness across diverse tools and schemas. Building bespoke environments for training is heavy, brittle, and limits progress. In this paper, we demonstrate that LLMs can simulate realistic environment feedback without access to actual testbed data or APIs. Inspired by this capability, we propose two frameworks: Simia-SFT, a pipeline that synthesizes SFT data by amplifying small seed sets into diverse trajectories in an environment-agnostic manner, and Simia-RL, a framework that enables RL training without real environment implementations through LLM-simulated feedback. Fine-tuning open models yields consistent improvements across multiple benchmarks, surpassing GPT-4o and approaching o4-mini on $\tau^2$-Bench. Together, Simia-SFT and Simia-RL enable scalable agent training without environment engineering, replacing heavy and brittle implementations with flexible LLM-based simulation.
- Abstract(参考訳): LLMエージェントは、深い推論を必要とするが、様々なツールやスキーマにまたがって堅牢性を必要とする、より広範で複雑なコンテキストで運用する場合は、脆弱である。
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
本稿では,LLMが実際のテストベッドデータやAPIにアクセスすることなく,現実的な環境フィードバックをシミュレートできることを実証する。
この能力に触発されたSimia-SFTは、小さなシードセットを環境に依存しない方法で様々な軌道に増幅することでSFTデータを合成するパイプラインであり、Simia-RLはLLMシミュレーションフィードバックによる実環境実装なしでRLトレーニングを可能にするフレームワークである。
細調整されたオープンモデルは複数のベンチマークで一貫した改善をもたらし、GPT-4oを超え、$\tau^2$-Benchでo4-miniに近づく。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にし、重い実装と脆い実装を柔軟なLLMベースのシミュレーションで置き換える。
関連論文リスト
- GEM: A Gym for Agentic LLMs [88.36970707762424]
General Experience Maker (GEM) は、大規模言語モデル(LLM)の時代に設計されたオープンソースの環境シミュレータである。
GEMは、高スループットのための非同期ベクトル化実行を含む環境エージェントインタフェースの標準化されたフレームワークを提供する。
GEMを用いてPPO,GRPO,REINFORCEのアップル・ツー・アップル・ベンチマークを行い,アルゴリズム設計に光を当てる。
論文 参考訳(メタデータ) (2025-10-01T15:55:57Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - ChronoLLM: Customizing Language Models for Physics-Based Simulation Code Generation [8.554484252096913]
オープンおよびクローズドソースの大規模言語モデル(LLM)の精細化とカスタマイズのためのフレームワークを提案する。
我々は、PyChrono仮想実験を実行するスクリプトを生成する上で、AIの力を利用する。
論文 参考訳(メタデータ) (2025-08-19T16:12:51Z) - G-Sim: Generative Simulations with Large Language Models and Gradient-Free Calibration [48.948187359727996]
G-Simは、厳密な経験的校正によるシミュレータ構築を自動化するハイブリッドフレームワークである。
信頼性のある因果的インフォームドシミュレータを生成し、データ効率を軽減し、堅牢なシステムレベルの介入を可能にする。
論文 参考訳(メタデータ) (2025-06-10T22:14:34Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
デプロイ後の段階において、RLポリシーを継続的に洗練する、生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
LoopSRはトランスフォーマーベースのエンコーダを使用して、現実世界の軌道を潜在空間にマッピングする。
オートエンコーダアーキテクチャとコントラスト学習手法を採用し、実世界のダイナミクスの特徴抽出を強化する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale [17.00936774784349]
大規模言語モデル(LLM)サービスシステムにおいて、汎用的なハードウェア・ソフトウェア動作を正確にモデル化できるシミュレーション基盤が欠如している。
本稿では,LLMServingSimと呼ばれる効率的なシミュレーションツールを開発し,LCMサービスシステムにおける今後の研究を支援することを目的とする。
論文 参考訳(メタデータ) (2024-08-10T09:26:15Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。