論文の概要: WEPO: Web Element Preference Optimization for LLM-based Web Navigation
- arxiv url: http://arxiv.org/abs/2412.10742v1
- Date: Sat, 14 Dec 2024 08:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:46.690682
- Title: WEPO: Web Element Preference Optimization for LLM-based Web Navigation
- Title(参考訳): WEPO: LLMベースのWebナビゲーションのためのWeb要素選好最適化
- Authors: Jiarun Liu, Jia Hao, Chunhong Zhang, Zheng Hu,
- Abstract要約: 本稿では、WEPO(Web Element Preference Optimization)と呼ばれるWebナビゲーションタスクに対する新しいアプローチを提案する。
距離に基づく非定常Web要素を負のサンプルとしてサンプリングし、直接選好最適化(DPO)における最大極大目標を最適化することにより、教師なしの選好学習を利用する。
その結果,WebAgentよりも13.8%,ビジュアル言語モデルであるCogAgentよりも5.3%向上した。
- 参考スコア(独自算出の注目度): 3.9400326648635566
- License:
- Abstract: The rapid advancement of autonomous web navigation has significantly benefited from grounding pretrained Large Language Models (LLMs) as agents. However, current research has yet to fully leverage the redundancy of HTML elements for contrastive training. This paper introduces a novel approach to LLM-based web navigation tasks, called Web Element Preference Optimization (WEPO). WEPO utilizes unsupervised preference learning by sampling distance-based non-salient web elements as negative samples, optimizing maximum likelihood objective within Direct Preference Optimization (DPO). We evaluate WEPO on the Mind2Web benchmark and empirically demonstrate that WEPO aligns user high-level intent with output actions more effectively. The results show that our method achieved the state-of-the-art, with an improvement of 13.8% over WebAgent and 5.3% over the visual language model CogAgent baseline. Our findings underscore the potential of preference optimization to enhance web navigation and other web page based tasks, suggesting a promising direction for future research.
- Abstract(参考訳): 自律型Webナビゲーションの急速な進歩は、事前訓練されたLarge Language Models (LLM) をエージェントとして利用することで大きな恩恵を受けている。
しかし、現在の研究は、対照的なトレーニングのためにHTML要素の冗長性を十分に活用していない。
本稿では, Web Element Preference Optimization (WEPO) と呼ばれる LLM ベースの Web ナビゲーションタスクに対して,新しいアプローチを提案する。
WEPOは、非教師なしの選好学習を、距離ベースの非サレントWeb要素を負のサンプルとしてサンプリングし、直接選好最適化(DPO)における最大極大目標を最適化する。
我々は、Mind2Webベンチマーク上でWEPOを評価し、WEPOがユーザのハイレベルな意図と出力アクションをより効果的に整合させることを実証的に実証した。
その結果,WebAgentよりも13.8%,ビジュアル言語モデルであるCogAgentよりも5.3%向上した。
本研究は,Webナビゲーションや他のWebページベースタスクを向上するための選好最適化の可能性を明らかにし,今後の研究の方向性を示唆するものである。
関連論文リスト
- Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Large Language Models Can Self-Improve At Web Agent Tasks [37.17001438055515]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法でエージェントとして新しい環境をナビゲートする機能を最近デモした。
WebArena ベンチマークを用いて,LLM が長期タスクにおけるエージェントとしての性能を自己向上する方法について検討した。
自己改善手順により,WebArenaベンチマークのベースモデルよりもタスク完了率を31%向上させる。
論文 参考訳(メタデータ) (2024-05-30T17:52:36Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - Improving web element localization by using a large language model [6.126394204968227]
大きな言語モデル(LLM)は、あるタスクにおいて人間のような推論能力を示す。
本稿では、拡張Web要素ローカライゼーションアプローチであるVON Similo LLMを紹介し、評価する。
論文 参考訳(メタデータ) (2023-10-03T13:39:22Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。