論文の概要: AsyncWebRL: Efficient Multi-Step RL for Visual Web Agents
- arxiv url: http://arxiv.org/abs/2606.05597v2
- Date: Mon, 08 Jun 2026 19:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.608801
- Title: AsyncWebRL: Efficient Multi-Step RL for Visual Web Agents
- Title(参考訳): AsyncWebRL:ビジュアルWebエージェントのための効率的なマルチステップRL
- Authors: Hao Bai, Rui Yang, Chenlu Ye, Spencer Whitehead, Aviral Kumar, Tong Zhang,
- Abstract要約: マルチステップRLを用いた視覚言語Webエージェントのトレーニングは計算集約的である。
本稿では、同期RLにおけるアイドルGPUに対処するAsyncWebRLと、必要以上に多くのステップとトークンを使用するトラジェクトリを提案する。
- 参考スコア(独自算出の注目度): 41.23725821297827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training vision-language web agents with multi-step RL is compute-intensive, with two dominant forms of inefficiency: idle GPUs in synchronous RL, and trajectories that use more steps and tokens than necessary. We present AsyncWebRL, which addresses both. On the system side, an asynchronous design overlaps rollout, gradient update, and policy refresh across iterations, paired with two web-agent-specific adaptations, namely an everlasting rollout pool and lightweight screenshot handling, that together deliver up to a $2.9\times$ end-to-end training-throughput speedup over the previously fastest open synchronous pipeline (WebGym). On the algorithmic side, we identify the per-trajectory normalizer $1/|τ_i|$ in multi-step GRPO as the root cause of trajectory-level and token-level inefficiency: because failures are systematically longer than successes, it down-weights the negative gradient on failed tokens, so the policy keeps producing verbose memory schemas. Replacing $1/|τ_i|$ with a constant $1/k$ breaks this coupling, contracting trajectories while preserving aggregate success. Together, these contributions set a new open-source state of the art on the WebGym out-of-distribution test split (+5.8% relative over the 42.9% prior best), with the largest gains on the harder slices (+42% relative on Medium, +48% relative on Hard).
- Abstract(参考訳): マルチステップRLを使った視覚言語Webエージェントのトレーニングは計算集約的であり、同期RLにおけるアイドルGPUと、必要以上にステップとトークンを使用するトラジェクトリの2つの非効率な形式がある。
どちらも対応しているAsyncWebRLを紹介します。
システム側では、非同期設計は、繰り返しにまたがってロールアウト、勾配更新、ポリシー更新をオーバーラップし、2つのWebエージェント固有の適応、すなわち永続的なロールアウトプールと軽量スクリーンショットハンドリングと組み合わせることで、これまで最速のオープン同期パイプライン(WebGym)よりも2.9\times$ end-to-endのトレーニング・処理スピードアップを提供する。
アルゴリズム側では,多段階GRPOの1/|τ_i|$をトラジェクトリレベルとトークンレベルの非効率性の根本原因として同定する。
1/|τ_i|$ を1/k$ で置き換えると、この結合を断ち切る。
これらのコントリビューションによって、WebGymのアウト・オブ・ディストリビューションテストの分割(42.9%よりも+5.8%高い)に関する新たなオープンソースステート・オブ・ザ・アート(Mediumでは+42%、Hardでは+48%)が実現した。
関連論文リスト
- Demystifying Pipeline Parallelism: First Theory for PipeDream [53.657104889705856]
本稿では、PDスタイルの手法に対して、クリーンな非収束性をもたらす固定ブロック-SGD抽象化としてランダム化PipeDream(PD)を導入する。
定常PDによって引き起こされる遅延は、$S2 - S/2 + O(1)$ for $S$として増大するので、スタイルリードのコントリビューションは、チューナレート形式で$(2S4)$、同等に$(S4/K)$としてスケールする。
論文 参考訳(メタデータ) (2026-06-02T11:14:57Z) - $π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models [76.66547858171452]
$pi_textRL$は、並列シミュレーションでフローベースのVision-Language-Action(VLA)モデルをトレーニングするためのオープンソースのフレームワークである。
$pi_textRL$は、数ショットのSFTモデルに$pi_0.5$を57.6%から97.6%へ、それぞれ77.1%から98.3%へ引き上げる。
ManiSkillでは、320の並列環境で$pi_textRL$をトレーニングし、$pi_textRL$を41.6%から85.7%、$pi_0.5に改善します。
論文 参考訳(メタデータ) (2025-10-29T18:37:39Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization [2.2596489829928452]
この研究は、1D $s$-step SGD と Averaging (FedAvg) を用いた 1D Federated SGD の作業を一般化し、2D 並列 SGD 法 (HybridSGD) を生成する。
C++ と MPI で全てのアルゴリズムを実装し,Cray EX スーパーコンピュータシステム上での性能評価を行う。
論文 参考訳(メタデータ) (2025-01-13T17:56:39Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。