論文の概要: From Imitation to Discrimination: Progressive Curriculum Learning for Robust Web Navigation
- arxiv url: http://arxiv.org/abs/2604.12666v1
- Date: Tue, 14 Apr 2026 12:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.445769
- Title: From Imitation to Discrimination: Progressive Curriculum Learning for Robust Web Navigation
- Title(参考訳): 模倣から差別へ:ロバストなWebナビゲーションのためのプログレッシブなカリキュラム学習
- Authors: Chuang Peng, Wei Zhang, Renshuai Tao, Xinhao Zhang, Jian Yang,
- Abstract要約: 本稿では,Tritonデータセット(590kインスタンス)とプログレッシブトレーニングカリキュラムを紹介する。
基本模倣のためのTriton-SFT-32B、堅牢な識別のためのTriton-ORPO-32B、長距離一貫性のためのTriton-GRPO-32Bの3つのモデルを作成している。
Mind2Webでの実証的な評価は、Triton-GRPO-32Bがオープンソースモデル間で最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 18.965820679356366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based web agents offer computational efficiency for autonomous web navigation, yet developing robust agents remains challenging due to the noisy and heterogeneous nature of real-world HTML. Standard Supervised Fine-Tuning (SFT) approaches fail in two critical dimensions: they lack discrimination capabilities to reject plausible but incorrect elements in densely populated pages, and exhibit limited generalization to unseen website layouts. To address these challenges, we introduce the Triton dataset (590k instances) and a progressive training curriculum. Triton is constructed via Structural-Semantic Hard Negative Mining, which explicitly mines topologically similar distractors, and a Dual-Agent Consensus pipeline that synthesizes diverse cross-domain tasks with strict verification. Building upon this foundation, our progressive curriculum produces three models: Triton-SFT-32B for basic imitation, Triton-ORPO-32B for robust discrimination via Odds Ratio Preference Optimization, and Triton-GRPO-32B for long-horizon consistency through Group Relative Policy Optimization. Empirical evaluation on Mind2Web demonstrates that Triton-GRPO-32B achieves state-of-the-art performance among open-source models with 58.7% Step Success Rate, surpassing GPT-4.5 (42.4%) and Claude-4.5 (41.4%) by over 16%, validating that specialized data curriculum outweighs raw parameter scale for web navigation.
- Abstract(参考訳): テキストベースのWebエージェントは、自律的なWebナビゲーションのための計算効率を提供するが、実世界のHTMLのノイズと異質性のため、堅牢なエージェントの開発は依然として困難である。
Standard Supervised Fine-Tuning (SFT) アプローチは2つの重要な側面で失敗する。
これらの課題に対処するために、Tritonデータセット(590kインスタンス)とプログレッシブトレーニングカリキュラムを導入します。
トリトンは、トポロジカルに類似したイントラクタを明示的にマイニングする構造・セマンティック・ハード負のマイニングと、厳密な検証で多様なクロスドメインタスクを合成するDual-Agent Consensusパイプラインによって構築されている。
本研究は, 基本模倣のためのTriton-SFT-32B, Odds Ratio Preference Optimizationによる堅牢な識別のためのTriton-ORPO-32B, Group Relative Policy Optimizationによる長距離整合性のためのTriton-GRPO-32Bの3つのモデルを構築した。
Mind2Webにおける実証的な評価は、GPT-4.5 (42.4%) と Claude-4.5 (41.4%) を上回る58.7% のステップ成功率を持つオープンソースモデルにおいて、Triton-GRPO-32B が最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Structured Distillation of Web Agent Capabilities Enables Generalization [33.41723014134473]
本稿では,人的アノテーションの役割に類似してWebエージェントの合成軌道生成を構築するフレームワークであるAgent-as-Annotatorsを紹介する。
Gemini 3 Proを教師として使用し、6つのWeb環境に3000のトラジェクトリを生成します。
結果、WebArenaでは41.5%が達成され、Claude 3.5 Sonnet (36.0%) や GPT-4o (31.5%) といったクローズドソースモデルを上回る結果となった。
論文 参考訳(メタデータ) (2026-04-09T04:04:15Z) - AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。
本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。
AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文 参考訳(メタデータ) (2026-02-06T08:24:59Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - ReSeFlow: Rectifying SE(3)-Equivariant Policy Learning Flows [7.360373380580255]
本稿では, SE(3)-拡散モデルに補正を導入し, 高速かつジオデシックな, 最小計算型ポリシー生成を提供するReSeFlowを提案する。
提案したReSeFlowは,提案手法よりも測地距離が低い場合に高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-20T06:32:36Z) - Too Helpful, Too Harmless, Too Honest or Just Right? [19.134202394422285]
大規模言語モデル(LLM)は、幅広いNLPタスクに強いパフォーマンスを示す。
アウトプットをHelpfulness、Harmlessness、Hoesty(HHH)の原則と整合させることは、依然として永続的な課題である。
本稿では,Transformer アーキテクチャに Calibrated Experts (MoCaE) を組み込んだモジュールアライメントフレームワークである TrinityX を提案する。
論文 参考訳(メタデータ) (2025-09-10T10:51:47Z) - TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis [35.2545408706656]
大規模言語モデル(LLM)は、様々な自然言語処理タスクを抜粋するが、有害なコンテンツを生成することや悪意のある目的のために悪用されることに弱いままである。
本稿では,3つの重要な領域(語彙多様性,悪意障害,ジェイルブレイク戦術)にまたがるアライメントデータセットのリスクカバレッジを測定するための新しい分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T15:02:21Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。