Fugu-MT 論文翻訳(概要): LASER: LLM Agent with State-Space Exploration for Web Navigation

論文の概要: LASER: LLM Agent with State-Space Exploration for Web Navigation

arxiv url: http://arxiv.org/abs/2309.08172v2
Date: Wed, 21 Feb 2024 17:42:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 20:29:00.174904
Title: LASER: LLM Agent with State-Space Exploration for Web Navigation
Title（参考訳）: laser: webナビゲーションのためのステートスペース探索を備えたllmエージェント
Authors: Kaixin Ma, Hongming Zhang, Hongwei Wang, Xiaoman Pan, Wenhao Yu, Dong Yu
Abstract要約: 大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
参考スコア（独自算出の注目度）: 57.802977310392755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have been successfully adapted for interactive decision-making tasks like web navigation. While achieving decent performance, previous methods implicitly assume a forward-only execution mode for the model, where they only provide oracle trajectories as in-context examples to guide the model on how to reason in the environment. Consequently, the model could not handle more challenging scenarios not covered in the in-context examples, e.g., mistakes, leading to sub-optimal performance. To address this issue, we propose to model the interactive task as state space exploration, where the LLM agent transitions among a pre-defined set of states by performing actions to complete the task. This formulation enables flexible backtracking, allowing the model to recover from errors easily. We evaluate our proposed LLM Agent with State-Space ExploRation (LASER) on both the WebShop task and amazon.com. Experimental results show that LASER significantly outperforms previous methods and closes the gap with human performance on the web navigation task.
Abstract（参考訳）: 大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。まともなパフォーマンスを実現する一方で、以前のメソッドは暗黙的にモデルに対してフォワードのみの実行モードを想定しており、環境での推論の仕方をモデルに導くために、oracleの軌道をインコンテキストの例としてのみ提供する。したがって、モデルがコンテキスト内の例でカバーされていない、より困難なシナリオ、例えばミスを処理できないため、最適化されたパフォーマンスが得られない。そこで本研究では,対話型タスクを状態空間探索としてモデル化し,llmエージェントがタスクを完了するためのアクションを実行することにより,事前定義された状態群に遷移する手法を提案する。この定式化はフレキシブルなバックトラックを可能にし、モデルがエラーから容易に回復できるようにする。我々は,WebShop タスクと amazon.com の両方で,状態空間爆発を伴う LLM Agent の評価を行った。実験の結果,レーザーは従来の手法を著しく上回り,webナビゲーションタスクにおける人間の性能の差を縮めることがわかった。

関連論文リスト

Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文参考訳（メタデータ） (2024-11-10T18:50:51Z)
DynaSaur: Large Language Agents Beyond Predefined Actions [108.75187263724838]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。動作の動的生成と構成をオンラインで実現するLLMエージェントフレームワークを提案する。 GAIAベンチマーク実験により, このフレームワークは柔軟性が向上し, 従来の手法よりも優れていたことが確認された。
論文参考訳（メタデータ） (2024-11-04T02:08:59Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。 WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文参考訳（メタデータ） (2024-05-30T17:52:36Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Self-Corrected Multimodal Large Language Model for End-to-End Robot Manipulation [30.54275273155153]
MLLM (Multimodal Large Language Models) は、視覚的指示において有望であることを示す。自己補正(SC)-MLLMを導入し、エンドエフェクタのポーズを予測するだけでなく、障害行動の自律的認識と修正も行う。 SC-MLLMは従来の最先端ロボットMLLM(ManipLLM)と比較して操作精度を著しく向上させる
論文参考訳（メタデータ） (2024-05-27T17:58:48Z)
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文参考訳（メタデータ） (2024-02-18T17:10:07Z)
AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文参考訳（メタデータ） (2023-10-20T11:10:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。