論文の概要: OpenClaw-RL: Train Any Agent Simply by Talking
- arxiv url: http://arxiv.org/abs/2603.10165v1
- Date: Tue, 10 Mar 2026 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.66089
- Title: OpenClaw-RL: Train Any Agent Simply by Talking
- Title(参考訳): OpenClaw-RL: 簡単に話せるエージェントを訓練する
- Authors: Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang,
- Abstract要約: 次状態信号は普遍的であり、ポリシーはそれらすべてから同時に学習することができる。
個人的な会話、端末の実行、GUIインタラクション、SWEタスク、ツールコールトレースは、別個のトレーニング問題ではない。
OpenClaw-RLは、エージェントを単に使用することで改善し、ユーザのリクエリ、修正、明示的なフィードバックから会話信号を復元する。
- 参考スコア(独自算出の注目度): 54.06773485601523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: https://github.com/Gen-Verse/OpenClaw-RL
- Abstract(参考訳): 各エージェントのインタラクションは、ユーザの応答、ツール出力、端末またはGUI状態の変更といった次の状態信号を生成するが、既存のエージェントRLシステムは、それをオンラインのライブ学習ソースとして復元する。
次状態信号は普遍的であり、ポリシーはそれらすべてから同時に学習することができる。
個人的な会話、端末の実行、GUIインタラクション、SWEタスク、ツールコールトレースは、別個のトレーニング問題ではない。
これらはすべて、同じループで同じポリシーをトレーニングするために使用できる相互作用です。
次状態信号は2種類の情報をエンコードする: 評価信号(evaluative signal)は、アクションがどれだけうまく実行され、PRMの判断によってスカラー報酬として抽出されるかを示す。
我々は、次の状態からテキストヒントを抽出し、強化された教師コンテキストを構築し、スカラー報酬よりもリッチなトークンレベルの指向性優位性監視を提供する。
非同期設計のため、モデルはライブリクエストを提供し、PRMは進行中のインタラクションを判断し、トレーナーはポリシーを同時に更新する。
パーソナルエージェントに適用されたOpenClaw-RLは、エージェントを単に使用することで改善し、ユーザの再クエリや修正、明示的なフィードバックから会話信号を復元する。
一般的なエージェントに適用すると、同じインフラストラクチャが端末、GUI、SWE、ツールコール設定をまたいでスケーラブルなRLをサポートします。
コード:https://github.com/Gen-Verse/OpenClaw-RL
関連論文リスト
- RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System [52.3348044324205]
クローズドループ最適化により環境・ポリシー・報酬モデルを構築する強化学習フレームワークであるRLAnythingを提案する。
具体的には、ポリシーはステップワイドおよび結果信号からの総合的なフィードバックで訓練される。
理論を動機とした自動環境適応は、報酬モデルと政策モデルの両方のトレーニングを改善する。
論文 参考訳(メタデータ) (2026-02-02T18:59:04Z) - From Self-Evolving Synthetic Data to Verifiable-Reward RL: Post-Training Multi-turn Interactive Tool-Using Agents [23.583947864141162]
EigenDataは階層的なマルチエージェントエンジンで、ツール基底の対話と実行可能なインスタンスごとのチェッカーを合成する。
合成データに基づいて、まずユーザモデルを微調整し、GRPOスタイルのトレーニングを適用するRLレシピを開発する。
以上の結果から,高価なアノテーションを使わずに,複雑なツールの動作をブートストラップするためのスケーラブルな経路が示唆された。
論文 参考訳(メタデータ) (2026-01-30T06:01:23Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.13422767414729]
我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。
エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。
システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文 参考訳(メタデータ) (2025-08-05T17:50:13Z) - Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving [26.413753656936688]
大規模言語モデル(LLM)は、正確で検証可能な計算を必要とする数学的推論タスクに苦慮することが多い。
結果に基づく報酬から強化学習(RL)がテキストベースの推論を強化する一方で、エージェントがコード実行のような外部ツールを活用するために自律的に学習する方法を理解することは依然として重要である。
論文 参考訳(メタデータ) (2025-05-12T17:23:34Z) - RLZero: Direct Policy Inference from Language Without In-Domain Supervision [40.046873614139464]
自然言語は、強化学習エージェントを指示する直感的な代替手段を提供する。
本稿では、未ラベルのオフラインインタラクションを用いてトレーニングされた事前学習されたRLエージェントを用いた新しいアプローチを提案する。
我々は、RLのコンポーネントが、クロスエボダイドビデオからゼロショットのポリシーを生成するために使用できることを示す。
論文 参考訳(メタデータ) (2024-12-07T18:31:16Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。