論文の概要: InSTA: Towards Internet-Scale Training For Agents
- arxiv url: http://arxiv.org/abs/2502.06776v2
- Date: Thu, 22 May 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:21.525936
- Title: InSTA: Towards Internet-Scale Training For Agents
- Title(参考訳): InSTA: エージェントのためのインターネット規模のトレーニングを目指す
- Authors: Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov,
- Abstract要約: 我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。
Qwen 3 1.7Bをベースとしたエージェントをトレーニングし、WebエージェントとしてフロンティアLLMと競合すると同時に、より小型で高速なエージェントをトレーニングする。
我々のトップエージェントは56.9%の成功率に達し、データ収集ポリシーのQwen 3B、Llama 4 Maverickの235倍、Gemini 2.5 Flashのパフォーマンスの94.7%を上回りました。
- 参考スコア(独自算出の注目度): 49.763517682308766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predominant approach for training web navigation agents is to gather human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data is an inefficient resource. We develop a pipeline to facilitate internet-scale training for agents without laborious human annotations. In the first stage, an LLM annotates 150k sites with agentic tasks. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM filters trajectories by judging their success. Language models are powerful data curation tools, identifying harmful content with an accuracy of 97%, judging successful trajectories with an accuracy of 82.6%, and producing effective data. We train agents based on Qwen 3 1.7B that are competitive with frontier LLMs as web agents, while being smaller and faster. Our top agent reaches a success rate of 56.9%, outperforming the data collection policy Qwen 3 235B, a 235 times larger Llama 4 Maverick, and reaching 94.7% of the performance of Gemini 2.5 Flash. We are releasing code, models and data at: https://data-for-agents.github.io.
- Abstract(参考訳): Webナビゲーションエージェントをトレーニングするための主要なアプローチは、人気のあるWebサイトや手書きタスクのための人間のデモを集めることだが、人間のデータが非効率なリソースであることは明らかになっている。
我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。
第1段階では、LLMは150kのサイトをエージェントタスクで注釈付けする。
次の段階では、LLMエージェントがタスクを完了し、軌道を生成する。
最終段階では、LCMはその成功を判断して軌道をフィルタリングする。
言語モデルは強力なデータキュレーションツールであり、97%の精度で有害なコンテンツを識別し、82.6%の精度で軌道を判断し、効果的なデータを生成する。
Qwen 3 1.7Bをベースとしたエージェントをトレーニングし、WebエージェントとしてフロンティアLLMと競合すると同時に、より小型で高速なエージェントをトレーニングする。
我々のトップエージェントは56.9%の成功率に達し、データ収集ポリシーのQwen 3 235B、Llama 4 Maverickの235倍、Gemini 2.5 Flashのパフォーマンスの94.7%を上回りました。
コード、モデル、データをhttps://data-for-agents.github.ioでリリースしています。
関連論文リスト
- Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。
我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。
SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文 参考訳(メタデータ) (2025-01-18T22:34:41Z) - Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。
AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。
オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文 参考訳(メタデータ) (2024-09-11T17:21:00Z) - An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文 参考訳(メタデータ) (2024-08-28T10:31:50Z) - BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment [64.39433316922148]
選好からの直接アライメント(DAP)は、事前コンパイルされたオフライン選好データセットからヒトデシダラタに大型言語モデル(LLM)をアライメントするための有望なパラダイムとして登場した。
オンライントレーニングのパワーをフル活用するために、特定のオンラインDAPアルゴリズムを開発する必要性を強調します。
論文 参考訳(メタデータ) (2024-06-18T00:41:40Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning [1.1242503819703258]
DiffCloneは、拡散に基づくポリシー学習を伴う拡張行動クローニングエージェントのオフラインアルゴリズムである。
この論文は、NeurIPS 2023で組織されたTOTOベンチマークチャレンジへの公式提出である。
論文 参考訳(メタデータ) (2024-01-17T14:43:59Z) - QUERT: Continual Pre-training of Language Model for Query Understanding
in Travel Domain Search [15.026682829320261]
旅行ドメイン探索におけるQUERy理解のための継続事前学習型言語モデルQUERTを提案する。
Quertは、旅行ドメイン検索におけるクエリの特徴に対して、4つの調整済み事前訓練タスクで共同で訓練されている。
オンラインビジネスにおけるQUERTの改善を確認するため、QUERTをデプロイし、Fliggy APP上でA/Bテストを実施します。
論文 参考訳(メタデータ) (2023-06-11T15:39:59Z) - Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。
そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文 参考訳(メタデータ) (2021-06-15T23:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。