Fugu-MT 論文翻訳(概要): InSTA: Towards Internet-Scale Training For Agents

論文の概要: InSTA: Towards Internet-Scale Training For Agents

arxiv url: http://arxiv.org/abs/2502.06776v2
Date: Thu, 22 May 2025 17:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 14:49:21.525936
Title: InSTA: Towards Internet-Scale Training For Agents
Title（参考訳）: InSTA: エージェントのためのインターネット規模のトレーニングを目指す
Authors: Brandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov,
Abstract要約: 我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。 Qwen 3 1.7Bをベースとしたエージェントをトレーニングし、WebエージェントとしてフロンティアLLMと競合すると同時に、より小型で高速なエージェントをトレーニングする。我々のトップエージェントは56.9%の成功率に達し、データ収集ポリシーのQwen 3B、Llama 4 Maverickの235倍、Gemini 2.5 Flashのパフォーマンスの94.7%を上回りました。
参考スコア（独自算出の注目度）: 49.763517682308766
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The predominant approach for training web navigation agents is to gather human demonstrations for a set of popular websites and hand-written tasks, but it is becoming clear that human data is an inefficient resource. We develop a pipeline to facilitate internet-scale training for agents without laborious human annotations. In the first stage, an LLM annotates 150k sites with agentic tasks. In the next stage, LLM agents complete tasks and produce trajectories. In the final stage, an LLM filters trajectories by judging their success. Language models are powerful data curation tools, identifying harmful content with an accuracy of 97%, judging successful trajectories with an accuracy of 82.6%, and producing effective data. We train agents based on Qwen 3 1.7B that are competitive with frontier LLMs as web agents, while being smaller and faster. Our top agent reaches a success rate of 56.9%, outperforming the data collection policy Qwen 3 235B, a 235 times larger Llama 4 Maverick, and reaching 94.7% of the performance of Gemini 2.5 Flash. We are releasing code, models and data at: https://data-for-agents.github.io.
Abstract（参考訳）: Webナビゲーションエージェントをトレーニングするための主要なアプローチは、人気のあるWebサイトや手書きタスクのための人間のデモを集めることだが、人間のデータが非効率なリソースであることは明らかになっている。我々は、人間のアノテーションを使わずに、インターネット規模のエージェントの訓練を容易にするパイプラインを開発した。第1段階では、LLMは150kのサイトをエージェントタスクで注釈付けする。次の段階では、LLMエージェントがタスクを完了し、軌道を生成する。最終段階では、LCMはその成功を判断して軌道をフィルタリングする。言語モデルは強力なデータキュレーションツールであり、97%の精度で有害なコンテンツを識別し、82.6%の精度で軌道を判断し、効果的なデータを生成する。 Qwen 3 1.7Bをベースとしたエージェントをトレーニングし、WebエージェントとしてフロンティアLLMと競合すると同時に、より小型で高速なエージェントをトレーニングする。我々のトップエージェントは56.9%の成功率に達し、データ収集ポリシーのQwen 3 235B、Llama 4 Maverickの235倍、Gemini 2.5 Flashのパフォーマンスの94.7%を上回りました。コード、モデル、データをhttps://data-for-agents.github.ioでリリースしています。

関連論文リスト

WebDancer: Towards Autonomous Information Seeking Agency [69.33360019344083]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文参考訳（メタデータ） (2025-05-28T17:57:07Z)
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。 xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文参考訳（メタデータ） (2025-04-04T17:13:57Z)
Learn-by-interact: A Data-Centric Framework for Self-Adaptive Agents in Realistic Environments [33.83610929282721]
Learn-by-interactは、大規模な言語モデル(LLM)を人間のアノテーションなしで任意の環境に適用するための、データ中心のフレームワークである。我々は、トレーニングベースのシナリオとトレーニング不要なインコンテキスト学習(ICL)の両方でそれらを用いて、合成データの質を評価する。 SWE-bench、WebArena、OSWorld、Spider2-Vが現実的なコーディング、Web、デスクトップ環境にまたがる実験は、Learning-by-interactの有効性を示している。
論文参考訳（メタデータ） (2025-01-18T22:34:41Z)
ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data [18.129300915372415]
大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
論文参考訳（メタデータ） (2024-11-22T15:26:23Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Agent Workflow Memory [71.81385627556398]
本稿では、一般的に再利用されるルーチンを誘導するAgent Memoryを紹介する。 AWMはベースラインの結果を24.6%、相対的な成功率51.1%で大幅に改善する。オンラインAWMは、クロスタスク、ウェブサイト、ドメイン評価を強力に一般化する。
論文参考訳（メタデータ） (2024-09-11T17:21:00Z)
An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders [1.0154385852423122]
強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。目標は、RLエージェントをトレーニングして購入報酬を最大化することである。本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
論文参考訳（メタデータ） (2024-08-28T10:31:50Z)
BPO: Staying Close to the Behavior LLM Creates Better Online LLM Alignment [64.39433316922148]
選好からの直接アライメント(DAP)は、事前コンパイルされたオフライン選好データセットからヒトデシダラタに大型言語モデル(LLM)をアライメントするための有望なパラダイムとして登場した。オンライントレーニングのパワーをフル活用するために、特定のオンラインDAPアルゴリズムを開発する必要性を強調します。
論文参考訳（メタデータ） (2024-06-18T00:41:40Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-23T18:56:26Z)
Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents [41.14201835950814]
大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。これまでの研究は、LLMと環境の間の相互作用軌跡を初めて収集し、小さなモデルを微調整するためにタスクを完了した軌道のみを用いていた。これらの軌道からLLMは適切な品質制御と微調整戦略によって学習することができると我々は主張する。
論文参考訳（メタデータ） (2024-02-18T17:10:07Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
DiffClone: Enhanced Behaviour Cloning in Robotics with Diffusion-Driven Policy Learning [1.1242503819703258]
DiffCloneは、拡散に基づくポリシー学習を伴う拡張行動クローニングエージェントのオフラインアルゴリズムである。この論文は、NeurIPS 2023で組織されたTOTOベンチマークチャレンジへの公式提出である。
論文参考訳（メタデータ） (2024-01-17T14:43:59Z)
QUERT: Continual Pre-training of Language Model for Query Understanding in Travel Domain Search [15.026682829320261]
旅行ドメイン探索におけるQUERy理解のための継続事前学習型言語モデルQUERTを提案する。 Quertは、旅行ドメイン検索におけるクエリの特徴に対して、4つの調整済み事前訓練タスクで共同で訓練されている。オンラインビジネスにおけるQUERTの改善を確認するため、QUERTをデプロイし、Fliggy APP上でA/Bテストを実施します。
論文参考訳（メタデータ） (2023-06-11T15:39:59Z)
Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T17:44:34Z)
Generative Conversational Networks [67.13144697969501]
本稿では,対話エージェントが独自のラベル付き学習データを生成することを学習する,生成会話ネットワーク(Generative Conversational Networks)というフレームワークを提案する。そこで本研究では,シードデータから学習したベースラインモデルに対して,意図検出が平均35%,スロットタグが平均21%向上したことを示す。
論文参考訳（メタデータ） (2021-06-15T23:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。