論文の概要: Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control
- arxiv url: http://arxiv.org/abs/2509.01720v1
- Date: Mon, 01 Sep 2025 18:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.824985
- Title: Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control
- Title(参考訳): succeed or Learnly: モバイルアプリ制御のための効率的なオフポリティ強化学習のサンプル
- Authors: Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: 本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
- 参考スコア(独自算出の注目度): 50.316067647636196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) using foundation models for policy approximations in multi-turn tasks remains challenging. We identify two main limitations related to sparse reward settings and policy gradient updates, based on which we formulate a key insight: updates from positive samples with high returns typically do not require policy regularisation, whereas updates from negative samples, reflecting undesirable behaviour, can harm model performance. This paper introduces Succeed or Learn Slowly (SoLS), a novel off-policy RL algorithm evaluated on mobile app control tasks. SoLS improves sample efficiency when fine-tuning foundation models for user interface navigation via a modified off-policy actor-critic approach, applying direct policy updates for positive samples and conservative, regularised updates for negative ones to prevent model degradation. We augment SoLS with Successful Transition Replay (STR), which prioritises learning from successful interactions, further improving sample efficiency. We evaluate SoLS on the AndroidWorld benchmark, where it significantly outperforms existing methods (at least 17% relative increase), including prompt-engineering and RL approaches, while requiring substantially fewer computational resources than GPT-4o-based methods with 5-60x faster inference.
- Abstract(参考訳): マルチターンタスクにおけるポリシー近似のための基礎モデルを用いた強化学習(RL)は依然として困難である。
高いリターンを持つ正のサンプルからの更新は、通常、ポリシーの正則化を必要としないが、負のサンプルからの更新は、望ましくない振る舞いを反映して、モデルのパフォーマンスを損なう可能性がある。
本稿では,モバイルアプリ制御タスクで評価された新規な非政治RLアルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザインターフェースナビゲーションのための微調整基盤モデルにおいて、修正されたオフポリシーアクター-批判的アプローチによるサンプル効率の向上、正のサンプルに対する直接的なポリシー更新、負のサンプルに対する保守的な定期的なアップデートの適用により、モデル劣化を防止している。
我々は、成功した相互作用から学習を優先し、サンプル効率をさらに向上するSLSを成功遷移再生(STR)で強化する。
我々は,AndroidWorldベンチマークでSOLSを評価し,プロンプトエンジニアリングやRLアプローチを含む既存の手法(少なくとも17%の相対的な増加)を著しく上回りながら,5~60倍高速なGPT-4oベースの手法よりも計算資源を著しく少なくする。
関連論文リスト
- LLMs Can Learn to Reason Via Off-Policy RL [17.2941334301927]
LLM(Large Language Models)の強化学習アプローチでは、PPOやGRPOといった政治アルゴリズムが頻繁に使用される。
タグ付き推論ポリシー(OAPL)を用いた最適アドバンテージに基づく政策最適化法(OAPL)を提案する。
OAPLは、トレーニングと推論ポリシーの間に400段階以上の段階の遅れがあっても、効果的で効果的な後トレーニングを可能にします。
論文 参考訳(メタデータ) (2026-02-22T22:12:51Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning [49.57517969069136]
Asymmetric Proximal Policy Optimization (AsyPPO) は、大規模なモデル設定で効率を保ちながら、批評家の役割を回復するシンプルでスケーラブルなフレームワークである。
AsyPPOは軽量のミニ批評家を採用しており、それぞれが切り離されたプロンプトシャードで訓練されている。
強力なベースラインを越えて、複数のベンチマークで学習の安定性とパフォーマンスを継続的に改善する。
論文 参考訳(メタデータ) (2025-10-02T04:24:27Z) - Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents [24.972357127546772]
エントロピー変調政策勾配(Entropy-Modulated Policy Gradients, EMPG)は、段階的不確実性と最終課題結果に基づいて学習信号を再分類するフレームワークである。
EMPGは、確実な正しい行動の更新を増幅し、確実なエラーをペナルティ化し、探索を安定させるために不確実なステップからの更新を減衰する。
論文 参考訳(メタデータ) (2025-09-11T08:50:01Z) - Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。
本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic [42.57662196581823]
高品質な$Q$値関数の学習は、多くの現代のオフポリシーディープ強化学習(RL)アルゴリズムの成功に重要な役割を果たしている。
一般的な視点から考えると、RLトレーニングプロセスの後半段階では、$Q$-valueが過小評価されることが多い。
本稿では,Blended Exploitation and Exploration (BEE)演算子を提案する。
論文 参考訳(メタデータ) (2023-06-05T13:38:14Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。