論文の概要: Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
- arxiv url: http://arxiv.org/abs/2411.06559v1
- Date: Sun, 10 Nov 2024 18:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:49.541257
- Title: Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
- Title(参考訳): LLMはインターネットの世界モデルか? Webエージェントのためのモデルベースプランニング
- Authors: Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su,
- Abstract要約: モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
- 参考スコア(独自算出の注目度): 23.1522773245956
- License:
- Abstract: Language agents have demonstrated promising capabilities in automating web-based tasks, though their current reactive approaches still underperform largely compared to humans. While incorporating advanced planning algorithms, particularly tree search methods, could enhance these agents' performance, implementing tree search directly on live websites poses significant safety risks and practical constraints due to irreversible actions such as confirming a purchase. In this paper, we introduce a novel paradigm that augments language agents with model-based planning, pioneering the innovative use of large language models (LLMs) as world models in complex web environments. Our method, WebDreamer, builds on the key insight that LLMs inherently encode comprehensive knowledge about website structures and functionalities. Specifically, WebDreamer uses LLMs to simulate outcomes for each candidate action (e.g., "what would happen if I click this button?") using natural language descriptions, and then evaluates these imagined outcomes to determine the optimal action at each step. Empirical results on two representative web agent benchmarks with online interaction -- VisualWebArena and Mind2Web-live -- demonstrate that WebDreamer achieves substantial improvements over reactive baselines. By establishing the viability of LLMs as world models in web environments, this work lays the groundwork for a paradigm shift in automated web interaction. More broadly, our findings open exciting new avenues for future research into 1) optimizing LLMs specifically for world modeling in complex, dynamic environments, and 2) model-based speculative planning for language agents.
- Abstract(参考訳): 言語エージェントは、Webベースのタスクを自動化する上で有望な能力を示した。
高度な計画アルゴリズム、特に木探索手法を取り入れることで、これらのエージェントのパフォーマンスが向上する一方で、ライブウェブサイトに直接ツリー検索を実装することは、購入確認のような不可逆的な行動によって、重大な安全性のリスクと実用的な制約をもたらす。
本稿では,複雑なWeb環境における世界モデルとしての大規模言語モデル (LLM) の革新的利用を開拓し,モデルベースプランニングで言語エージェントを強化する新しいパラダイムを提案する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
具体的には、WebDreamerは、自然言語記述を使用して各候補アクション(例えば、このボタンをクリックするとどうなるか?)の結果をシミュレートするためにLSMを使用し、次にこれらの予測結果を評価し、各ステップで最適なアクションを決定する。
オンラインインタラクションを備えた2つの代表的なWebエージェントベンチマーク(VisualWebArenaとMind2Web-live)の実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅に改善されていることを示している。
Web 環境における世界モデルとしての LLM の実用性を確立することにより,自動化された Web インタラクションにおけるパラダイムシフトの基盤となるものとなる。
より広範に、我々の発見は今後の研究のためのエキサイティングな新しい道を開く。
1)複雑な動的環境における世界モデリングに特化したLLMの最適化
2)モデルに基づく言語エージェントの投機計画
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation [25.26545170310844]
本稿では,WMA(World-model-augmented, WMA)Webエージェントを提案する。
WebArenaとMind2Webの実験は、私たちの世界モデルが、トレーニングなしでエージェントのポリシー選択を改善していることを示している。
論文 参考訳(メタデータ) (2024-10-17T05:37:00Z) - AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks? [50.36826943689364]
言語エージェントがWeb上で現実的で時間を要するタスクを実行できるかどうかを調査する。
自動評価が可能な214の現実的なタスクからなる新しいベンチマークであるAssistantBenchを紹介する。
我々は,AssistantBenchが,言語モデルや検索拡張言語モデルなど,現在のシステムの限界を明らかにすることを発見した。
論文 参考訳(メタデータ) (2024-07-22T15:18:45Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models [31.509994889286183]
我々はLanguage Agent Tree Search (LATS)を紹介した。Language Agent Tree Search (LATS)は、推論、行動、計画において言語モデル(LM)の能力を相乗化する最初の一般的なフレームワークである。
当社のアプローチの重要な特徴は、より意図的で適応的な問題解決メカニズムを提供する外部フィードバック環境の導入である。
LATSは、GPT-4でHumanEval上でプログラミングするための最先端パス@1精度(92.7%)を達成し、GPTによるWebShop上のWebナビゲーションの勾配ベースの微調整に匹敵する勾配なし性能(平均スコア75.9)を示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:11Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。