論文の概要: Structured Distillation of Web Agent Capabilities Enables Generalization
- arxiv url: http://arxiv.org/abs/2604.07776v1
- Date: Thu, 09 Apr 2026 04:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.684543
- Title: Structured Distillation of Web Agent Capabilities Enables Generalization
- Title(参考訳): 一般化を可能にするWebエージェント機能の構造的蒸留
- Authors: Xing Han Lù, Siva Reddy,
- Abstract要約: 本稿では,人的アノテーションの役割に類似してWebエージェントの合成軌道生成を構築するフレームワークであるAgent-as-Annotatorsを紹介する。
Gemini 3 Proを教師として使用し、6つのWeb環境に3000のトラジェクトリを生成します。
結果、WebArenaでは41.5%が達成され、Claude 3.5 Sonnet (36.0%) や GPT-4o (31.5%) といったクローズドソースモデルを上回る結果となった。
- 参考スコア(独自算出の注目度): 33.41723014134473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier LLMs can navigate complex websites, but their cost and reliance on third-party APIs make local deployment impractical. We introduce Agent-as-Annotators, a framework that structures synthetic trajectory generation for web agents by analogy to human annotation roles, replacing the Task Designer, Annotator, and Supervisor with modular LLM components. Using Gemini 3 Pro as teacher, we generate 3,000 trajectories across six web environments and fine-tune a 9B-parameter student with pure supervised learning on the 2,322 that pass quality filtering. The resulting model achieves 41.5% on WebArena, surpassing closed-source models such as Claude 3.5 Sonnet (36.0%) and GPT-4o (31.5%) under the same evaluation protocol, and nearly doubling the previous best open-weight result (Go-Browse, 21.7%). Capabilities transfer to unseen environments, with an 18.2 percentage point gain on WorkArena L1 (an enterprise platform never seen during training) and consistent improvements across three additional benchmarks. Ablations confirm that each pipeline component contributes meaningfully, with Judge filtering, evaluation hints, and reasoning traces each accounting for measurable gains. These results demonstrate that structured trajectory synthesis from a single frontier teacher is sufficient to produce competitive, locally deployable web agents. Project page: https://agent-as-annotators.github.io
- Abstract(参考訳): Frontier LLMは複雑なWebサイトをナビゲートできるが、そのコストとサードパーティのAPIに依存しているため、ローカルなデプロイメントは現実的ではない。
本稿では,Agent-as-Annotatorsについて紹介する。Agent-as-Annotatorsは,ヒューマンアノテーションロールに類似して,Webエージェントの合成軌道生成を構造化するフレームワークで,タスクデザイナ,アノテーション,スーパーバイザをモジュール型LCMコンポーネントで置き換える。
Gemini 3 Proを教師として利用し、6つのWeb環境に3000のトラジェクトリを生成し、品質フィルタリングをパスする2,322で純粋に教師付き学習を行う9Bパラメータの学生を微調整する。
結果、WebArenaでは41.5%が達成され、Claude 3.5 Sonnet (36.0%) や GPT-4o (31.5%) といったクローズドソースモデルを上回る結果となった。
WorkArena L1(トレーニング中に見たことのないエンタープライズプラットフォーム)で18.2%のポイントを獲得し、さらに3つのベンチマークで一貫した改善が加えられた。
Ablationsは、各パイプラインコンポーネントが有意義に寄与していることを確認する。
これらの結果は,単一フロンティア教師による構造化軌道合成が,競争力のあるローカル展開可能なWebエージェントを生成するのに十分であることを示す。
プロジェクトページ: https://agent-as-annotators.github.io
関連論文リスト
- Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs [28.672417618778976]
効果的なソフトウェアエンジニアリングエージェントの訓練には、大量のタスク固有の軌道が必要である。
より少ないが高品質な訓練軌道で優れたエージェント能力を実現するエンドツーエンドのトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-01T12:33:25Z) - EnterpriseBench Corecraft: Training Generalizable Agents on High-Fidelity RL Environments [0.10934862523101825]
我々は,高忠実度強化学習環境におけるAIエージェントの訓練が,トレーニング分布を超えて一般化する能力を生み出すことを示す。
私たちは、Surge AIのエージェントRL環境スイートであるEnterpriseBenchの最初の環境であるCoreCraftを紹介します。
論文 参考訳(メタデータ) (2026-02-18T04:35:46Z) - Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters [169.7981969517903]
Step 3.5 Flashは、フロンティアレベルのエージェントインテリジェンスと計算効率を橋渡しする。
エージェントを構築する上で最も重要なもの、すなわち、シャープな推論と高速で信頼性の高い実行に重点を置いています。
論文 参考訳(メタデータ) (2026-02-11T07:53:51Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。