論文の概要: SOLAR-RL: Semi-Online Long-horizon Assignment Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.22558v1
- Date: Fri, 24 Apr 2026 13:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.483669
- Title: SOLAR-RL: Semi-Online Long-horizon Assignment Reinforcement Learning
- Title(参考訳): SOLAR-RL:半オンライン長軸配置強化学習
- Authors: Jichao Wang, Liuyang Bian, Yufeng Zhou, Han Xiao, Yue Pan, Guozhi Wang, Hao Wang, Zhaoxiong Wang, Yafei Wen, Xiaoxin Chen, Shuai Ren, Lingfang Zeng,
- Abstract要約: Reinforcement Learning (RL)は、動的GUIタスク上でMLLMエージェントをトレーニングするための有望なパラダイムとして登場した。
オンラインRLは長期のダイナミクスを捉えているが、高い相互作用コストと潜在的な環境不安定さに悩まされている。
SOLAR-RL(Semi-Online Long-Horizon Assignment Reinforcement Learning)を提案する。
- 参考スコア(独自算出の注目度): 21.3755929369092
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Multimodal Large Language Models (MLLMs) mature, GUI agents are evolving from static interactions to complex navigation. While Reinforcement Learning (RL) has emerged as a promising paradigm for training MLLM agents on dynamic GUI tasks, its effective application faces a dilemma. Standard Offline RL often relies on static step-level data, neglecting global trajectory semantics such as task completion and execution quality. Conversely, Online RL captures the long-term dynamics but suffers from high interaction costs and potential environmental instability. To bridge this gap, we propose SOLAR-RL (Semi-Online Long-horizon Assignment Reinforcement Learning). Instead of relying solely on expensive online interactions, our framework integrates global trajectory insights directly into the offline learning process. Specifically, we reconstruct diverse rollout candidates from static data, detect the first failure point using per-step validity signals, and retroactively assign dense step-level rewards with target-aligned shaping to reflect trajectory-level execution quality, effectively simulating online feedback without interaction costs. Extensive experiments demonstrate that SOLAR-RL significantly improves long-horizon task completion rates and robustness compared to strong baselines, offering a sample-efficient solution for autonomous GUI navigation.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)が成熟するにつれて、GUIエージェントは静的相互作用から複雑なナビゲーションへと進化している。
Reinforcement Learning(RL)は、動的GUIタスク上でMLLMエージェントをトレーニングするための有望なパラダイムとして登場したが、その効果的なアプリケーションはジレンマに直面している。
標準オフラインRLは、しばしば静的なステップレベルのデータに依存し、タスクの完了や実行品質のようなグローバルな軌跡のセマンティクスを無視します。
逆に、オンラインRLは長期的な力学を捉えているが、高い相互作用コストと潜在的な環境不安定さに悩まされている。
このギャップを埋めるため,SOLAR-RL(Semi-Online Long-Horizon Assignment Reinforcement Learning)を提案する。
我々のフレームワークは、高価なオンラインインタラクションのみに頼るのではなく、オフライン学習プロセスに直接グローバルな軌跡の洞察を統合する。
具体的には,静的データから多種多様なロールアウト候補を再構成し,ステップ毎の妥当性信号を用いて第1故障点を検出し,軌道レベルの実行品質を反映するターゲット整形による高密度ステップレベルの報酬を遡及的に割り当て,相互作用コストを伴わずにオンラインフィードバックを効果的にシミュレーションする。
大規模な実験により、SOLAR-RLは強力なベースラインに比べて長時間のタスク完了率と堅牢性を著しく改善し、自律的なGUIナビゲーションのためのサンプル効率の高いソリューションを提供することが示された。
関連論文リスト
- Grounded in Reality: Learning and Deploying Proactive LLM from Offline Logs [72.08224879435762]
textttLearn-to-Askは、プロアクティブな対話エージェントの学習とデプロイのためのシミュレータフリーフレームワークである。
当社のアプローチは,LLMの大規模オンラインAIサービスへの展開を成功に導くものです。
論文 参考訳(メタデータ) (2025-10-29T12:08:07Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - Conservative and Risk-Aware Offline Multi-Agent Reinforcement Learning [33.48496141312585]
強化学習(Reinforcement Learning, RL)は、次世代無線ネットワークのような複雑なエンジニアリングシステムの制御と最適化に広く採用されている。
RLを採用する上で重要な課題は、物理的環境への直接アクセスの必要性である。
本稿では、分散RLと保守的Q-ラーニングを統合したオフラインMARL方式を提案する。
論文 参考訳(メタデータ) (2024-02-13T12:49:22Z) - Offline Multi-Agent Reinforcement Learning with Implicit Global-to-Local
Value Regularization [23.416448404647305]
OMIGAは、暗黙のグローバル-ローカル-ローカル v alue 正規化を備えた新しいオフライン m ulti-agent RL アルゴリズムである。
OMIGAは、ほぼ全てのタスクにおいて、最先端のオフラインMARL法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-07-21T14:37:54Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。