論文の概要: ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data
- arxiv url: http://arxiv.org/abs/2411.15004v2
- Date: Thu, 05 Dec 2024 02:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:25.936529
- Title: ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data
- Title(参考訳): ScribeAgent: プロダクションスケールのワークフローデータを使用した特別なWebエージェントを目指して
- Authors: Junhong Shen, Atishay Jain, Zedian Xiao, Ishan Amlekar, Mouad Hadji, Aaron Podolny, Ameet Talwalkar,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。
汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。
我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
- 参考スコア(独自算出の注目度): 18.129300915372415
- License:
- Abstract: Large Language Model (LLM) agents are rapidly improving to handle increasingly complex web-based tasks. Most of these agents rely on general-purpose, proprietary models like GPT-4 and focus on designing better prompts to improve their planning abilities. However, general-purpose LLMs are not specifically trained to understand specialized web contexts such as HTML, and they often struggle with long-horizon planning. We explore an alternative approach that fine-tunes open-source LLMs using production-scale workflow data collected from over 250 domains corresponding to 6 billion tokens. This simple yet effective approach shows substantial gains over prompting-based agents on existing benchmarks -- ScribeAgent achieves state-of-the-art direct generation performance on Mind2Web and improves the task success rate by 7.3% over the previous best text-only web agents on WebArena. We further perform detailed ablation studies on various fine-tuning design choices and provide insights into LLM selection, training recipes, context window optimization, and effect of dataset sizes.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。
これらのエージェントのほとんどは、GPT-4のような汎用的でプロプライエタリなモデルに依存しており、計画能力を改善するためのより良いプロンプトの設計に注力している。
しかし、汎用 LLM は、HTML のような専門的な Web コンテキストを理解するために特別に訓練されていないため、長期計画に苦慮することが多い。
我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
ScribeAgentはMind2Web上で最先端のダイレクトジェネレーションパフォーマンスを実現し、以前のWebArena上でのテキストのみのWebエージェントよりもタスクの成功率を7.3%向上させる。
さらに、様々な微調整デザインの選択について詳細なアブレーション研究を行い、LLM選択、トレーニングレシピ、コンテキストウィンドウ最適化、データセットサイズの影響について洞察を提供する。
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。