論文の概要: AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18331v2
- Date: Tue, 31 Oct 2023 06:25:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:04:26.073870
- Title: AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models
- Title(参考訳): AllTogether:大規模言語モデルを用いたWebナビゲーションにおけるスプレッドプロンプトの有効性の検討
- Authors: Jiarun Liu, Wentao Hu, Chunhong Zhang
- Abstract要約: タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
- 参考スコア(独自算出の注目度): 2.234037966956278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have emerged as promising agents for web
navigation tasks, interpreting objectives and interacting with web pages.
However, the efficiency of spliced prompts for such tasks remains
underexplored. We introduces AllTogether, a standardized prompt template that
enhances task context representation, thereby improving LLMs' performance in
HTML-based web navigation. We evaluate the efficacy of this approach through
prompt learning and instruction finetuning based on open-source Llama-2 and
API-accessible GPT models. Our results reveal that models like GPT-4 outperform
smaller models in web navigation tasks. Additionally, we find that the length
of HTML snippet and history trajectory significantly influence performance, and
prior step-by-step instructions prove less effective than real-time
environmental feedback. Overall, we believe our work provides valuable insights
for future research in LLM-driven web agents.
- Abstract(参考訳): 大規模言語モデル(llm)は、webナビゲーションタスクの有望なエージェントとして登場し、目的を解釈し、webページと対話する。
しかし、このようなタスクに対するスプライシングプロンプトの効率は未検討のままである。
我々は、タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるalltogetherを導入し、htmlベースのwebナビゲーションにおけるllmsのパフォーマンスを改善した。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
その結果、gpt-4のようなモデルは、webナビゲーションタスクでより小さいモデルを上回ることが判明した。
さらに,HTMLスニペットの長さと履歴の軌跡が性能に大きく影響し,事前ステップバイステップの指示がリアルタイムの環境フィードバックよりも効果が低いことが判明した。
全体として、我々の研究はLLM駆動のウェブエージェントにおける将来の研究に貴重な洞察をもたらすと考えている。
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。