論文の概要: LASER: LLM Agent with State-Space Exploration for Web Navigation
- arxiv url: http://arxiv.org/abs/2309.08172v1
- Date: Fri, 15 Sep 2023 05:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:54:51.805881
- Title: LASER: LLM Agent with State-Space Exploration for Web Navigation
- Title(参考訳): laser: webナビゲーションのためのステートスペース探索を備えたllmエージェント
- Authors: Kaixin Ma, Hongming Zhang, Hongwei Wang, Xiaoman Pan, Dong Yu
- Abstract要約: 大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
- 参考スコア(独自算出の注目度): 56.51540469639768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been successfully adapted for interactive
decision-making tasks like web navigation. While achieving decent performance,
previous methods implicitly assume a forward-only execution mode for the model,
where they only provide oracle trajectories as in-context examples to teach the
model how to reason in the interactive environment. Consequently, the model
could not handle more challenging scenarios not covered in the in-context
examples, e.g., mistakes, leading to sub-optimal performance. To address this
issue, we propose to model the interactive task as state space exploration,
where the LLM agent transitions among a pre-defined set of states by performing
actions to complete the task. This formulation enables flexible back-tracking,
allowing the model to easily recover from errors. We evaluate our proposed LLM
Agent with State-Space ExploRation (LASER) on the WebShop task. Experimental
results show that our LASER agent significantly outperforms previous methods
and closes the gap with human performance on the web navigation task.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
まともなパフォーマンスを実現する一方で、これまでのメソッドでは、モデルに対してフォワードのみの実行モードを暗黙的に想定しており、インタラクティブな環境での推論方法を教えるために、oracleの軌道をインコンテキストの例としてのみ提供する。
したがって、モデルがコンテキスト内の例でカバーされていない、より困難なシナリオ、例えばミスを処理できないため、最適化されたパフォーマンスが得られない。
そこで本研究では,対話型タスクを状態空間探索としてモデル化し,llmエージェントがタスクを完了するためのアクションを実行することにより,事前定義された状態群に遷移する手法を提案する。
この定式化は柔軟なバックトラッキングを可能にし、モデルがエラーから容易に回復できるようにする。
WebShopタスク上で,状態空間爆発(LASER)を用いたLLMエージェントの評価を行った。
実験結果から, 従来手法よりも高い性能を示し, ウェブナビゲーション作業における人的性能とのギャップを埋めることができた。
関連論文リスト
- Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - DynaSaur: Large Language Agents Beyond Predefined Actions [108.75187263724838]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。
動作の動的生成と構成をオンラインで実現するLLMエージェントフレームワークを提案する。
GAIAベンチマーク実験により, このフレームワークは柔軟性が向上し, 従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-11-04T02:08:59Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation [30.54275273155153]
MLLM (Multimodal Large Language Models) は、視覚的指示において有望であることを示す。
自己補正(SC)-MLLMを導入し、エンドエフェクタのポーズを予測するだけでなく、障害行動の自律的認識と修正も行う。
SC-MLLMは従来の最先端ロボットMLLM(ManipLLM)と比較して操作精度を著しく向上させる
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。