論文の概要: SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model
- arxiv url: http://arxiv.org/abs/2507.23773v1
- Date: Thu, 31 Jul 2025 17:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.219765
- Title: SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model
- Title(参考訳): SimuRA: LLMベースの世界モデルを用いたシミュレーション推論アーキテクチャによる汎用エージェントを目指して
- Authors: Mingkai Deng, Jinyu Hou, Yilin Shen, Hongxia Jin, Graham Neubig, Zhiting Hu, Eric Xing,
- Abstract要約: 汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。
モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。
特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
- 参考スコア(独自算出の注目度): 88.04128601981145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agents built on large language models (LLMs) hold enormous promise, but current practice focuses on a one-task-one-agent approach, which not only falls short of scalability and generality, but also suffers from the fundamental limitations of autoregressive LLMs. On the other hand, humans are general agents who reason by mentally simulating the outcomes of their actions and plans. Moving towards a more general and powerful AI agent, we introduce SimuRA, a goal-oriented architecture for generalized agentic reasoning. Based on a principled formulation of optimal agent in any environment, \modelname overcomes the limitations of autoregressive reasoning by introducing a world model for planning via simulation. The generalized world model is implemented using LLM, which can flexibly plan in a wide range of environments using the concept-rich latent space of natural language. Experiments on difficult web browsing tasks show that \modelname improves the success of flight search from 0\% to 32.2\%. World-model-based planning, in particular, shows consistent advantage of up to 124\% over autoregressive planning, demonstrating the advantage of world model simulation as a reasoning paradigm. We are excited about the possibility for training a single, general agent model based on LLMs that can act superintelligently in all environments. To start, we make SimuRA, a web-browsing agent built on \modelname with pretrained LLMs, available as a research demo for public testing.
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築されたAIエージェントは、大きな可能性を秘めているが、現在のプラクティスは、スケーラビリティと汎用性に欠けるだけでなく、自動回帰型LLMの基本的な制限に悩まされている、ワンタスクのエージェントアプローチに重点を置いている。
一方、人間は行動や計画の結果を精神的にシミュレートして推論する一般エージェントである。
より汎用的で強力なAIエージェントを目指して,汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。
任意の環境における最適エージェントの原理的定式化に基づいて,シミュレーションによる計画のための世界モデルを導入することにより,自己回帰推論の限界を克服する。
一般化世界モデルはLLMを用いて実装され、自然言語の概念に富んだ潜在空間を用いて、幅広い環境で柔軟に計画できる。
難易度の高いWebブラウジングタスクの実験では、 \modelname はフライトサーチの成功を 0\% から 32.2\% に改善することを示している。
特に、世界モデルに基づく計画では、自己回帰計画よりも最大124\%の一貫性のある利点を示し、推論パラダイムとしての世界モデルシミュレーションの利点を示している。
我々は、全ての環境において超知能に作用するLSMをベースとした、単一の汎用エージェントモデルをトレーニングできる可能性に興奮している。
まずは、事前訓練されたLLMを持つ \modelname 上に構築された Web ブラウザエージェントである SimuRA を、公開テストのための研究デモとして利用できるようにします。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [22.608219492706876]
本稿では,各候補行動の結果をシミュレートし,考慮した世界モデルを用いたWebエージェントのためのモデルベース計画フレームワークを提案する。
実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅にパフォーマンスが向上していることを示している。
我々の訓練された世界モデルDreamer-7Bは、GPT-4oに匹敵する性能を発揮し、複雑なウェブ環境における効率的かつ効率的な計画のための特殊な世界モデルの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Sparse Rewards Can Self-Train Dialogue Agents [22.799506097310008]
我々は,LLMエージェントに対して,外部からのフィードバックを伴わずに,自律的にパフォーマンスを向上させるための新たな自己改善パラダイムを導入する。
我々はMultiWOZから派生したスパース報酬ツール呼び出しシミュレーション環境であるToolWOZを提案する。
JOSHでトレーニングされたモデルは、小規模でもフロンティアでも、ツールベースのインタラクションを大幅に改善し、さまざまなベンチマークで一般的なモデル機能を保持します。
論文 参考訳(メタデータ) (2024-09-06T21:00:57Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。