論文の概要: Weasel: Out-of-Domain Generalization for Web Agents via Importance-Diversity Data Selection
- arxiv url: http://arxiv.org/abs/2605.20291v2
- Date: Tue, 26 May 2026 02:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.781385
- Title: Weasel: Out-of-Domain Generalization for Web Agents via Importance-Diversity Data Selection
- Title(参考訳): Weasel: 重要/多様性データ選択によるWebエージェントのドメイン外一般化
- Authors: Fatemeh Pesaran Zadeh, Seyeon Choi, Xing Han Lù, Siva Reddy, Gunhee Kim,
- Abstract要約: Weaselは、Webエージェントのオフライントレーニングのための軌道選択方法である。
トレーニングコストを削減しつつ、ドメイン外のパフォーマンスを改善し、標準的な微調整よりも約9.7-12.5$timesのトレーニングスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 62.12561798137681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have enabled web agents that follow natural language goals through multi-step browser interactions. However, agents fine-tuned on specific trajectories and domain often struggle to generalize out of domain, and offline training can be compute-inefficient due to noisy, redundant trajectories and long accessibility-tree (AXTree) states. To address both issues, we propose Weasel, a trajectory selection method for offline training of web agents. Weasel selects a fixed-budget subset of trajectory steps by optimizing an objective that balances unary importance with pairwise diversity over states, websites, and interaction patterns, solving efficiently with a greedy algorithm. We further improve efficiency with target-centered AXTree pruning that keeps only content around the ground-truth action target, and we mitigate style mismatch for reasoning-native models by replacing expert traces with model-generated, style-consistent rationales. Across AgentTrek and NNetNav training datasets, evaluations in WebArena, WorkArena, and MiniWob, and experiments with Qwen2.5-7B, Gemma3-4B, and Qwen3-8B, Weasel improves out-of-domain performance while reducing training cost, producing roughly 9.7-12.5$\times$ training speedups over standard fine-tuning. We make the code available at https://github.com/fatemehpesaran310/weasel.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階のブラウザインタラクションを通じて自然言語の目標に従うWebエージェントを可能にする。
しかし、特定のトラジェクトリやドメインに微調整されたエージェントはドメイン外の一般化に苦しむことが多く、オフライントレーニングはノイズ、冗長なトラジェクトリ、長いアクセシビリティツリー(AXTree)状態のために非効率である。
両問題に対処するため,Webエージェントのオフライントレーニングのための軌道選択手法であるWeaselを提案する。
Weasel氏は、状態、ウェブサイト、相互作用パターンに対する一元的重要性とペアワイズな多様性のバランスをとる目的を最適化することで、軌道ステップの固定予算サブセットを選択し、グレディなアルゴリズムで効率的に解決する。
さらに,ターゲット中心のAXTreeプルーニング(AXTree pruning)の効率向上を図るとともに,モデル生成型でスタイル一貫性のある論理式に置き換えることで,推論ネイティブモデルに対するスタイルミスマッチを緩和する。
AgentTrekとNNetNavのトレーニングデータセット、WebArena、WorkArena、MiniWobの評価、およびQwen2.5-7B、Gemma3-4B、Qwen3-8Bの実験を通じて、Weaselはトレーニングコストを削減し、トレーニングコストを約9.7-12.5$\times$のトレーニングスピードアップを実現した。
コードはhttps://github.com/fatemehpesaran310/weasel.comで公開しています。
関連論文リスト
- AgentOpt v0.1 Technical Report: Client-Side Optimization for LLM-Based Agent [18.58248061903799]
AgentOptは、クライアントサイドAI最適化のための最初のフレームワークに依存しないPythonパッケージである。
我々はまず,マルチステップエージェントパイプラインにおける高インパクト最適化レバーであるモデル選択について検討する。
指数関数的に増加する組み合わせ空間を効率的に探索するために、AgentOptは10の検索アルゴリズムを実装している。
論文 参考訳(メタデータ) (2026-04-07T17:13:47Z) - OpAgent: Operator Agent for Web Navigation [23.928869500029432]
我々は、オンラインインタラクション環境を開発し、特殊なRLパイプラインを用いてビジョン・ランゲージ・モデル(VLM)を微調整する。
本稿では,総合的な結果評価のためのWebJudgeと,進捗報酬のためのルールベース決定木(RDT)を組み合わせたハイブリッド・リワード機構を提案する。
特に、我々のRL強化モデルは、WebArena上で38.1%の成功率(pass@5)を達成し、既存のモノリシックなベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-14T02:33:55Z) - Prune4Web: DOM Tree Pruning Programming for Web Agent [20.59581294172181]
Prune4Webは、DOM処理をリソース集約型LLM読み込みから効率的なプログラムプルーニングに移行する新しいパラダイムである。
そこで我々は,Planner, Programmatic Filter, Grounderを協調的に最適化する,特殊なデータアノテーションパイプラインと2ターン対話訓練戦略を提案する。
論文 参考訳(メタデータ) (2025-11-26T13:49:39Z) - Adversarial Style Augmentation for Domain Generalization [41.72506801753435]
本稿では,より効率的な統計摂動を発生させることにより,より広いスタイル空間を探索する,新しいAdrial Style Augmentation (ASA)手法を提案する。
ASA の応用を容易にするため,プラグイン・アンド・プレイ方式で ASA メソッドをインスタンス化するシンプルなモジュールである AdvStyle を設計した。
本手法は,PACSデータセット上での単一ソース一般化条件下での競合よりも優れていた。
論文 参考訳(メタデータ) (2023-01-30T03:52:16Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。