論文の概要: Towards Internet-Scale Training For Agents
- arxiv url: http://arxiv.org/abs/2502.06776v1
- Date: Mon, 10 Feb 2025 18:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:34:21.432421
- Title: Towards Internet-Scale Training For Agents
- Title(参考訳): エージェントのインターネットスケールトレーニングに向けて
- Authors: Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov,
- Abstract要約: 我々は、人間のアノテーションを使わずに、Webエージェントのインターネットスケールトレーニングを容易にするパイプラインを開発した。
Llama 3.1 70Bに基づくエージェントは150kサイトのタスクの16.7%を解決している。
パイプラインによって生成されたデータに関するトレーニングは、人間のデモに関するトレーニングと競合します。
- 参考スコア(独自算出の注目度): 49.763517682308766
- License:
- Abstract: The predominant approach for training web navigation agents gathers human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data are an inefficient resource. We develop a pipeline to facilitate Internet-scale training for agents without laborious human annotations. In the first stage, an LLM generates tasks for 150k diverse websites. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM reviews the trajectories and judges their success. Language models are competitive with human annotators, detecting and filtering out harmful content with an accuracy of 97%, generating feasible tasks with an 89% rate, and judging successful trajectories with an 82.6% accuracy. Scaling the pipeline, agents based on Llama 3.1 70B solve 16.7% of tasks for 150k sites. Training on the data generated by our pipeline is competitive with training on human demonstrations. In data-limited settings derived from Mind2Web and WebLINX, we improve Step Accuracy by up to +89.5% and +122.1% respectively for agents trained on mixtures of data from our pipeline, and human data. When training agents with all available human data from these benchmarks, agents fail to generalize to diverse real sites, and adding our data improves their generalization by +149.0% for WebLINX and +156.3% for Mind2Web. Code will be available at: data-for-agents.github.io.
- Abstract(参考訳): Webナビゲーションエージェントをトレーニングするための主要なアプローチは、人気のあるWebサイトや手書きタスクのための人間のデモを集めているが、人間のデータが非効率なリソースであることは明らかになっている。
我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。
最初の段階では、LCMは150万の多様なウェブサイトのタスクを生成する。
次の段階では、LLMエージェントがタスクを完了し、軌道を生成する。
最終段階では、LLMは軌道をレビューし、彼らの成功を判断する。
言語モデルは人間のアノテーションと競合し、有害なコンテンツを97%の精度で検出・フィルタリングし、89%の確率で実行可能なタスクを生成し、82.6%の精度で軌道を判断する。
パイプラインのスケーリングでは、Llama 3.1 70Bに基づくエージェントが150kサイトのタスクの16.7%を解決している。
パイプラインによって生成されたデータに関するトレーニングは、人間のデモに関するトレーニングと競合します。
Mind2WebとWebLINXから派生したデータ制限設定では、パイプラインからのデータと人間のデータの混合物で訓練されたエージェントに対して、ステップ精度を最大+89.5%、+122.1%改善する。
これらのベンチマークから利用可能なすべての人的データをトレーニングするエージェントは、さまざまな実サイトへの一般化に失敗し、我々のデータを追加することで、WebLINXでは+149.0%、Mind2Webでは+156.3%の一般化が向上する。
data-for-agents.github.io
関連論文リスト
- Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (2024-09-11T17:21:00Z) - An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文 参考訳(メタデータ) (2024-08-28T10:31:50Z) - BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment [64.39433316922148]
選好からの直接アライメント(DAP)は、事前コンパイルされたオフライン選好データセットからヒトデシダラタに大型言語モデル(LLM)をアライメントするための有望なパラダイムとして登場した。
オンライントレーニングのパワーをフル活用するために、特定のオンラインDAPアルゴリズムを開発する必要性を強調します。
論文 参考訳(メタデータ) (2024-06-18T00:41:40Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning [1.1242503819703258]
DiffCloneは、拡散に基づくポリシー学習を伴う拡張行動クローニングエージェントのオフラインアルゴリズムである。
この論文は、NeurIPS 2023で組織されたTOTOベンチマークチャレンジへの公式提出である。
論文 参考訳(メタデータ) (2024-01-17T14:43:59Z) - QUERT: Continual Pre-training of Language Model for Query Understanding
in Travel Domain Search [15.026682829320261]
旅行ドメイン探索におけるQUERy理解のための継続事前学習型言語モデルQUERTを提案する。
Quertは、旅行ドメイン検索におけるクエリの特徴に対して、4つの調整済み事前訓練タスクで共同で訓練されている。
オンラインビジネスにおけるQUERTの改善を確認するため、QUERTをデプロイし、Fliggy APP上でA/Bテストを実施します。
論文 参考訳(メタデータ) (2023-06-11T15:39:59Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。