論文の概要: Android Coach: Improve Online Agentic Training Efficiency with Single State Multiple Actions
- arxiv url: http://arxiv.org/abs/2604.07277v1
- Date: Wed, 08 Apr 2026 16:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.642099
- Title: Android Coach: Improve Online Agentic Training Efficiency with Single State Multiple Actions
- Title(参考訳): Android Coach: 単一状態の複数アクションによるオンラインエージェントトレーニング効率の改善
- Authors: Guo Gan, Yuxuan Ding, Cong Chen, Yuwei Ren, Yin Huang, Hong Zhou,
- Abstract要約: トレーニングパラダイムをSingle State Multiple ActionsにシフトするフレームワークであるAndroid Coachを提案する。
UI-TARS-1.5-7BよりもAndroidLabとAndroidWorldで7.5%と8.3%の成功率の向上を実現している。
PPOやGRPOよりも1.4倍高いトレーニング効率を実現している。
- 参考スコア(独自算出の注目度): 10.809432858954006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online reinforcement learning (RL) serves as an effective method for enhancing the capabilities of Android agents. However, guiding agents to learn through online interaction is prohibitively expensive due to the high latency of emulators and the sample inefficiency of existing RL algorithms. We identify a fundamental limitation in current approaches: the Single State Single Action paradigm, which updates the policy with one-to-one state-action pairs from online one-way rollouts without fully exploring each costly emulator state. In this paper, we propose Android Coach, a novel framework that shifts the training paradigm to Single State Multiple Actions, allowing the agent to sample and utilize multiple actions for a single online state. We enable this without additional emulator overhead by learning a critic that estimates action values. To ensure the critic serves as a reliable coach, we integrate a process reward model and introduce a group-wise advantage estimator based on the averaged critic outputs. Extensive experiments demonstrate the effectiveness and efficiency of Android Coach: it achieves 7.5% and 8.3% success rate improvements on AndroidLab and AndroidWorld over UI-TARS-1.5-7B, and attains 1.4x higher training efficiency than Single State Single Action methods PPO and GRPO at matched success rates.
- Abstract(参考訳): オンライン強化学習(RL)は、Androidエージェントの能力を高める効果的な方法である。
しかしながら、エミュレータのレイテンシが高く、既存のRLアルゴリズムのサンプル非効率が原因で、オンラインインタラクションを通じて学習を誘導するエージェントは非常に高価である。
シングルステートシングルアクションパラダイムは、コストのかかる各エミュレータ状態を完全に探索することなく、オンラインのワンウェイロールアウトから1対1のステートアクションペアでポリシーを更新する。
本稿では,学習パラダイムを単一状態多重行動に変換する新しいフレームワークであるAndroid Coachを提案する。
我々は、アクション値を見積もる批評家を学ぶことで、エミュレータのオーバーヘッドを増すことなくこれを可能にする。
評価者が信頼できるコーチとして機能することを保証するため,プロセス報酬モデルを統合し,評価結果に基づいてグループワイド・アドバンテージ推定器を導入する。
UI-TARS-1.5-7BよりもAndroidLabとAndroidWorldで7.5%と8.3%の成功率の向上を実現し、同じ成功率でシングルステートシングルアクションメソッドのPPOとGRPOよりも1.4倍高いトレーニング効率を達成した。
関連論文リスト
- Agentic Critical Training [58.33938417298441]
大規模言語モデル(LLM)を自律エージェントとして訓練することは、しばしば模倣学習から始まる。
本稿ではエージェントクリティカルトレーニング(ACT)を提案する。これは,エージェントに対して,選択肢間のよりよい行動を特定するための強化学習パラダイムである。
ACTは、異なるポストトレーニングメソッドと組み合わせることで、エージェントのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-09T17:58:56Z) - Learning to Ideate for Machine Learning Engineering Agents [16.81355516530214]
MLE-Ideatorは、概念を実装から分離するデュアルエージェントフレームワークである。
本システムでは,実装エージェントが専用Ideatorからの戦略的支援を要求できる。
10のMLEタスクからの1Kのトレーニングサンプルだけで、我々のRLで訓練されたQwen3-8B Ideatorは、訓練されていないタスクと比較して11.5%改善した。
論文 参考訳(メタデータ) (2026-01-24T21:20:33Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - Towards Better Sample Efficiency in Multi-Agent Reinforcement Learning via Exploration [42.81540142561437]
多エージェント強化学習は、チームベースの環境における協調行動の学習において有望である。
本稿では,TiZeroにおける自己監督型内因性報酬とランダムネットワーク蒸留ボーナスの2つの方法を提案する。
この結果から, ランダムネットワーク蒸留は, 当初のTiZeroと比較して, トレーニングサンプル効率を18.8%向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-17T11:32:28Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Watch and Match: Supercharging Imitation with Regularized Optimal
Transport [28.3572924961148]
正規化された最適輸送(ROT)は、最適輸送に基づく軌道マッチングの最近の進歩に基づく新しい模倣学習アルゴリズムである。
DeepMind Control Suite、OpenAI Robotics Suite、Meta-World Benchmarkにまたがる20の視覚的制御タスクの実験では、専門家のパフォーマンスの90%に達するために平均7.8倍の高速な模倣が実証された。
論文 参考訳(メタデータ) (2022-06-30T17:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。