Fugu-MT 論文翻訳(概要): AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models

論文の概要: AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models

arxiv url: http://arxiv.org/abs/2310.18331v2
Date: Tue, 31 Oct 2023 06:25:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:04:26.073870
Title: AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models
Title（参考訳）: AllTogether:大規模言語モデルを用いたWebナビゲーションにおけるスプレッドプロンプトの有効性の検討
Authors: Jiarun Liu, Wentao Hu, Chunhong Zhang
Abstract要約: タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
参考スコア（独自算出の注目度）: 2.234037966956278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have emerged as promising agents for web navigation tasks, interpreting objectives and interacting with web pages. However, the efficiency of spliced prompts for such tasks remains underexplored. We introduces AllTogether, a standardized prompt template that enhances task context representation, thereby improving LLMs' performance in HTML-based web navigation. We evaluate the efficacy of this approach through prompt learning and instruction finetuning based on open-source Llama-2 and API-accessible GPT models. Our results reveal that models like GPT-4 outperform smaller models in web navigation tasks. Additionally, we find that the length of HTML snippet and history trajectory significantly influence performance, and prior step-by-step instructions prove less effective than real-time environmental feedback. Overall, we believe our work provides valuable insights for future research in LLM-driven web agents.
Abstract（参考訳）: 大規模言語モデル(llm)は、webナビゲーションタスクの有望なエージェントとして登場し、目的を解釈し、webページと対話する。しかし、このようなタスクに対するスプライシングプロンプトの効率は未検討のままである。我々は、タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるalltogetherを導入し、htmlベースのwebナビゲーションにおけるllmsのパフォーマンスを改善した。我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。その結果、gpt-4のようなモデルは、webナビゲーションタスクでより小さいモデルを上回ることが判明した。さらに,HTMLスニペットの長さと履歴の軌跡が性能に大きく影響し,事前ステップバイステップの指示がリアルタイムの環境フィードバックよりも効果が低いことが判明した。全体として、我々の研究はLLM駆動のウェブエージェントにおける将来の研究に貴重な洞察をもたらすと考えている。

関連論文リスト

WEPO: Web Element Preference Optimization for LLM-based Web Navigation [3.9400326648635566]
本稿では、WEPO(Web Element Preference Optimization)と呼ばれるWebナビゲーションタスクに対する新しいアプローチを提案する。距離に基づく非定常Web要素を負のサンプルとしてサンプリングし、直接選好最適化(DPO)における最大極大目標を最適化することにより、教師なしの選好学習を利用する。その結果,WebAgentよりも13.8%,ビジュアル言語モデルであるCogAgentよりも5.3%向上した。
論文参考訳（メタデータ） (2024-12-14T08:25:28Z)
PAFFA: Premeditated Actions For Fast Agents [19.576180667174366]
PAFFAは、新しい推論時間手法を用いて、インターネット上でのタスクの完了を高速かつ正確にする手法である。 PAFFAは、堅牢なパフォーマンスを維持しながら、推論時間トークンを87%大幅に削減する。調査に基づいてアクションライブラリを更新するUnravelの能力は、目に見えないウェブサイトへの一般化と適応を可能にする。
論文参考訳（メタデータ） (2024-12-10T22:51:31Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。 WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文参考訳（メタデータ） (2024-05-30T17:52:36Z)
AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文参考訳（メタデータ） (2024-04-04T17:58:40Z)
On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文参考訳（メタデータ） (2024-02-23T02:18:12Z)
LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文参考訳（メタデータ） (2023-09-15T05:44:08Z)
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文参考訳（メタデータ） (2023-07-24T14:56:30Z)
Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T17:44:34Z)
Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文参考訳（メタデータ） (2022-10-08T07:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。