論文の概要: Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents
- arxiv url: http://arxiv.org/abs/2503.10689v1
- Date: Wed, 12 Mar 2025 01:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:04.014247
- Title: Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents
- Title(参考訳): LLMエージェントによるWebページのコンテクスト化学習
- Authors: Dongjun Lee, Juyong Lee, Kyuyoung Kim, Jihoon Tack, Jinwoo Shin, Yee Whye Teh, Kimin Lee,
- Abstract要約: 複雑なWebページをより理解しやすい形式にするための言語モデルを学習するためのフレームワークであるLCoWを紹介する。
LCoWは、別々のコンテキスト化モジュールをトレーニングすることで、意思決定からWebページ理解を分離する。
我々の文脈化モジュールは、様々なスケールのLLMエージェントと効果的に統合され、意思決定能力を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 89.98593996816186
- License:
- Abstract: Recent advances in large language models (LLMs) have led to a growing interest in developing LLM-based agents for automating web tasks. However, these agents often struggle with even simple tasks on real-world websites due to their limited capability to understand and process complex web page structures. In this work, we introduce LCoW, a framework for Learning language models to Contextualize complex Web pages into a more comprehensible form, thereby enhancing decision making by LLM agents. LCoW decouples web page understanding from decision making by training a separate contextualization module to transform complex web pages into comprehensible format, which are then utilized by the decision-making agent. We demonstrate that our contextualization module effectively integrates with LLM agents of various scales to significantly enhance their decision-making capabilities in web automation tasks. Notably, LCoW improves the success rates of closed-source LLMs (e.g., Gemini-1.5-flash, GPT-4o, Claude-3.5-Sonnet) by an average of 15.6%, and demonstrates a 23.7% average improvement in success rates for open-source LMs (e.g., Llama-3.1-8B, Llama-3.1-70B) on the WorkArena benchmark. Moreover, the Gemini-1.5-flash agent with LCoW achieves state-of-the-art results on the WebShop benchmark, outperforming human experts. The relevant code materials are available at our project page: https://lcowiclr2025.github.io.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、Webタスクを自動化するLLMベースのエージェントの開発への関心が高まっている。
しかし、これらのエージェントは複雑なWebページ構造を理解し、処理する能力に制限があるため、現実世界のウェブサイトで単純なタスクに悩まされることが多い。
本研究では,複雑なWebページをより理解しやすい形式にするための言語モデルを学習するためのフレームワークであるLCoWを紹介し,LLMエージェントによる意思決定を強化する。
LCoWは、複雑なWebページを理解可能なフォーマットに変換するために、個別のコンテキスト化モジュールをトレーニングすることで、意思決定からWebページを分離し、意思決定エージェントが利用する。
我々は,Web自動化タスクにおける意思決定能力を大幅に向上させるため,文脈化モジュールが様々なスケールのLLMエージェントと効果的に統合できることを実証した。
特にLCoWは、オープンソースLM(例えば、Llama-3.1-8B、Llama-3.1-70B)の成功率の平均を15.6%改善し、WorkArenaベンチマークで23.7%改善した。
さらに、LCoWを使ったGemini-1.5-flashエージェントは、WebShopベンチマークで最先端の結果を達成し、人間の専門家より優れています。
関連するコード資料はプロジェクトのページで公開されています。
関連論文リスト
- Federated In-Context LLM Agent Learning [3.4757641432843487]
大規模言語モデル(LLM)は、論理的推論、ツールの使用、エージェントとしての外部システムとの相互作用を可能にすることによって、インテリジェントなサービスに革命をもたらした。
本稿では,プライバシ保護型フェデレーション・イン・コンテクスト LLM Agent Learning (FICAL) アルゴリズムを提案する。
その結果、FICALは、他のSOTAベースラインと比較して競争性能が優れており、通信コストの大幅な削減は、$mathbf3.33times105$倍であることがわかった。
論文 参考訳(メタデータ) (2024-12-11T03:00:24Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。
我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning [30.42084844801606]
大規模言語モデル(LLM)は、特にWebベースのタスクにおいて、自律エージェントとして顕著な可能性を示している。
本稿では,オープン LLM を用いた高性能 Web エージェントの学習を目的とした,自己進化型オンラインカリキュラム強化学習フレームワーク WebRL を紹介する。
オープンなLlama-3.1およびGLM-4モデルをWebエージェントに変換するためにWebRLを適用した。
論文 参考訳(メタデータ) (2024-11-04T17:59:58Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。
本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。
実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:38:41Z) - Teaching Machines to Code: Smart Contract Translation with LLMs [4.780973517287942]
本稿では、2つの異なる大規模言語モデル(LLM)を統一されたフレームワーク内でシナジーを利用する先駆的なアプローチを提案する。
このフレームワークは、コーディング原則を把握し、コードから馴染みのない言語への変換にこの理解を適用するように設計されています。
本研究では,人間の学習過程を模倣するLLMの能力について検討し,Solidityで記述されたスマートコントラクトをMoveに変換する手法の詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-13T18:55:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。