論文の概要: SimuRA: A World-Model-Driven Simulative Reasoning Architecture for General Goal-Oriented Agents
- arxiv url: http://arxiv.org/abs/2507.23773v2
- Date: Fri, 24 Oct 2025 17:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.088043
- Title: SimuRA: A World-Model-Driven Simulative Reasoning Architecture for General Goal-Oriented Agents
- Title(参考訳): SimuRA: 汎用エージェントのための世界モデル駆動型シミュレーティブ推論アーキテクチャ
- Authors: Mingkai Deng, Jinyu Hou, Zhiting Hu, Eric Xing,
- Abstract要約: SimuRAは汎用エージェント推論のための目標指向アーキテクチャである。
我々は、オープンソースの研究デモとして、SimuRA上に構築されたWebブラウジングエージェントReasonerAgent-Webをリリースした。
- 参考スコア(独自算出の注目度): 15.91448165400836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agents built on foundation models hold enormous promise. Current practice, however, focuses on a one-task-one-agent approach, which not only falls short of scalability and generality, but also faces practical limitations from black-box autoregressive reasoning, where decisions unfold token by token without explicit simulation or counterfactual evaluation of outcomes. Humans, on the other hand, reason and plan by mentally simulating the consequences of actions within an internal model of the world -- a capability that supports flexible, goal-directed behavior across diverse contexts. Moving towards a more general and powerful AI agent, we introduce SimuRA, a goal-oriented architecture for generalized agentic reasoning. Based on a principled formulation of an optimal agent in any general environment, SimuRA addresses the limitations of black-box autoregressive reasoning by incorporating the world model for planning via simulation. Our prototype world model is implemented using LLMs as a substrate, leveraging the natural language as a discrete, hierarchical representation grounded in concepts for planning, while remaining model-agnostic. On complex web-browsing tasks such as flight search, SimuRA improves the success rate from 0% to 32.2% compared to a representative open-web agent baseline. Across tasks, world-model-based planning achieves up to 124% higher task completion rates than a matched black-box autoregressive baseline, demonstrating the advantages of simulative reasoning. We release ReasonerAgent-Web, a web-browsing agent built on SimuRA, as an open-source research demo.
- Abstract(参考訳): ファンデーションモデル上に構築されたAIエージェントは、大きな可能性を秘めている。
しかし、現在の実践は、スケーラビリティと一般性に欠けるだけでなく、ブラックボックスの自動回帰推論による現実的な制限に直面しているワンタスク・ワン・エージェントのアプローチに焦点を当てている。
一方、人間は、世界の内部モデルにおける行動の結果を精神的にシミュレートすることで、理性と計画を立てる。
より汎用的で強力なAIエージェントを目指して,汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。
シミュラは、任意の一般的な環境における最適なエージェントの原理的な定式化に基づいて、シミュレーションによる計画のための世界モデルを統合することにより、ブラックボックス自己回帰推論の限界に対処する。
プロトタイプ世界モデルは, LLMをベースとして実装され, 自然言語を設計概念に根ざした離散的階層表現として活用する一方で, モデルに依存しないままである。
フライトサーチのような複雑なウェブブラウジングタスクでは、SimuRAは一般的なオープンウェブエージェントのベースラインに比べて0%から32.2%に改善する。
タスク全体にわたって、ワールドモデルベースのプランニングは、マッチしたブラックボックスの自動回帰ベースラインよりも最大124%高いタスク完了率を実現し、シミュレーション推論の利点を示している。
我々は、オープンソースの研究デモとして、SimuRA上に構築されたWebブラウジングエージェントReasonerAgent-Webをリリースした。
関連論文リスト
- AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [22.608219492706876]
本稿では,各候補行動の結果をシミュレートし,考慮した世界モデルを用いたWebエージェントのためのモデルベース計画フレームワークを提案する。
実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅にパフォーマンスが向上していることを示している。
我々の訓練された世界モデルDreamer-7Bは、GPT-4oに匹敵する性能を発揮し、複雑なウェブ環境における効率的かつ効率的な計画のための特殊な世界モデルの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - ReasonPlanner: Enhancing Autonomous Planning in Dynamic Environments with Temporal Knowledge Graphs and LLMs [0.32141666878560626]
本稿では,リフレクティブ思考,計画,対話的推論のための新しいジェネラリストエージェントReasonPlannerを紹介する。
ReasonPlannerはScienceWorldベンチマークの従来の最先端のプロンプトベースの手法を1.8倍以上上回っている。
凍結重量のみに依存するため、勾配更新は不要である。
論文 参考訳(メタデータ) (2024-10-11T20:58:51Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。