論文の概要: R-WoM: Retrieval-augmented World Model For Computer-use Agents
- arxiv url: http://arxiv.org/abs/2510.11892v1
- Date: Mon, 13 Oct 2025 19:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.079794
- Title: R-WoM: Retrieval-augmented World Model For Computer-use Agents
- Title(参考訳): R-WoM: コンピュータ利用エージェントのための検索強化ワールドモデル
- Authors: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang,
- Abstract要約: 大規模言語モデル(LLM)は、デジタル環境におけるエージェントの意思決定を強化する世界モデルとして機能する。
未来予測と報奨推定という,世界モデルの2つのコア機能について,三つの課題を通して検討する。
本稿では,外部チュートリアルから得られた現実的,最新の知識を取り入れたRetrieval-augmented World Model (R-WoM)を提案する。
- 参考スコア(独自算出の注目度): 15.812606459788471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) can serve as world models to enhance agent decision-making in digital environments by simulating future states and predicting action outcomes, potentially eliminating costly trial-and-error exploration. However, this capability is fundamentally limited by LLMs' tendency toward hallucination and their reliance on static training knowledge, which can lead to compounding errors that inhibit long-horizon simulations. To systematically investigate whether LLMs are appropriate for world modeling, we probe two core capabilities of world models--future state prediction and reward estimation--through three tasks: next-state identification, full-procedure planning alignment, and milestone transition recognition. Our analysis shows that while LLMs effectively capture immediate next states and identify meaningful state transitions, their performance rapidly degrades in full-procedure planning. This highlights LLMs' limitations in reliably modeling environment dynamics over long horizons. To address these limitations, we propose the Retrieval-augmented World Model (R-WoM), which grounds LLM simulations by incorporating factual, up-to-date knowledge retrieved from external tutorials. Experiments show that R-WoM achieves substantial improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to baselines, with particular advantages in longer-horizon simulations.
- Abstract(参考訳): LLM(Large Language Models)は、将来の状態をシミュレートし、行動結果を予測することによって、デジタル環境におけるエージェント決定を強化する世界モデルとして機能し、コストのかかる試行錯誤を排除できる。
しかし、この能力は、LLMの幻覚に対する傾向と静的な訓練知識への依存により基本的に制限されており、長い水平シミュレーションを阻害する複雑なエラーを引き起こす可能性がある。
本研究では,LLMが世界モデルに適切かどうかを体系的に検討するため,次世代識別,フルプロデューサ計画アライメント,マイルストーン遷移認識という3つのタスクを通じて,未来状態予測と報奨推定の2つのコア機能を探索する。
分析の結果,LLMは次の状態を効果的に把握し,意味のある状態遷移を識別するが,フルプロデューサ計画において性能は急速に低下することがわかった。
このことは、長い地平線上で環境力学を確実にモデル化するLLMの限界を浮き彫りにする。
これらの制約に対処するため,LLMシミュレーションの基盤となるRetrieval-augmented World Model (R-WoM)を提案する。
実験の結果、R-WoMはベースラインに比べて最大25.3%(OSWorld)と18.1%(WebArena)の大幅な改善を実現している。
関連論文リスト
- SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model [88.04128601981145]
汎用エージェント推論のための目標指向アーキテクチャであるSimuRAを紹介する。
モデルネームは、シミュレーションによる計画のための世界モデルを導入することで、自己回帰推論の限界を克服する。
特に、ワールドモデルベースのプランニングは、自己回帰プランニングよりも最大124%の一貫性のあるアドバンテージを示している。
論文 参考訳(メタデータ) (2025-07-31T17:57:20Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data [46.65903742010956]
本研究では,人間の行動を正確にシミュレートする,最先端のLDMの能力の大規模定量的評価を行った。
230,965件のユーザアクションを含む31,865件のオンラインショッピングセッションから得られた実世界データを用いて,プロンプトベースのLCMが人間の行動生成においてわずか11.86%の精度で達成できることを明らかにする。
また, 実クリックスルーデータに対して, モデルの性能を大幅に向上させる手法として, 実クリックスルーデータに対する微調整 LLM の戦略を提示する。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。