論文の概要: Federated reinforcement learning for robot motion planning with zero-shot generalization
- arxiv url: http://arxiv.org/abs/2403.13245v2
- Date: Sun, 7 Apr 2024 19:25:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 00:37:15.797161
- Title: Federated reinforcement learning for robot motion planning with zero-shot generalization
- Title(参考訳): ゼロショット一般化によるロボット運動計画のためのフェデレーション強化学習
- Authors: Zhenyuan Yuan, Siyuan Xu, Minghui Zhu,
- Abstract要約: 学習したポリシーが新しい環境にデプロイされるとき、データ収集やポリシーの適応は必要ない。
我々は,複数の学習者と中央サーバの協調学習を可能にする,連携型強化学習フレームワークを開発した。
各繰り返しにおいて、各学習者はローカル制御ポリシーと対応する推定正規化到着時刻をクラウドにアップロードする。
これにより、学習者のグローバルな最適度を計算し、学習者に最適なポリシーをブロードキャストする。
- 参考スコア(独自算出の注目度): 10.174811217396032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers the problem of learning a control policy for robot motion planning with zero-shot generalization, i.e., no data collection and policy adaptation is needed when the learned policy is deployed in new environments. We develop a federated reinforcement learning framework that enables collaborative learning of multiple learners and a central server, i.e., the Cloud, without sharing their raw data. In each iteration, each learner uploads its local control policy and the corresponding estimated normalized arrival time to the Cloud, which then computes the global optimum among the learners and broadcasts the optimal policy to the learners. Each learner then selects between its local control policy and that from the Cloud for next iteration. The proposed framework leverages on the derived zero-shot generalization guarantees on arrival time and safety. Theoretical guarantees on almost-sure convergence, almost consensus, Pareto improvement and optimality gap are also provided. Monte Carlo simulation is conducted to evaluate the proposed framework.
- Abstract(参考訳): 本稿では,ゼロショット一般化によるロボット動作計画の制御ポリシの学習,すなわち学習方針が新しい環境に展開される際には,データ収集やポリシー適応が不要である,という課題について考察する。
我々は,複数の学習者と中央サーバ,すなわちクラウドの協調学習を,生データを共有せずに実現する,連合型強化学習フレームワークを開発した。
各繰り返しにおいて、各学習者はローカル制御ポリシーとそれに対応する正規化到着時刻をクラウドにアップロードし、学習者のグローバルな最適度を計算し、学習者に最適なポリシーをブロードキャストする。
次に各学習者は、ローカルコントロールポリシーとクラウドからのコントロールを次のイテレーションで選択する。
提案するフレームワークは、到着時間と安全に関するゼロショットの一般化を保証する。
ほぼ公理収束、ほぼ一致、パレート改善、最適性ギャップに関する理論的保証も提供される。
モンテカルロシミュレーションにより提案手法の評価を行った。
関連論文リスト
- Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Privacy-preserving Decentralized Federated Learning over Time-varying
Communication Graph [5.649296652252663]
分散学習者が分散グローバルモデルアグリゲーションを実現するための最初のプライバシ保存コンセンサスに基づくアルゴリズムを提案する。
本論文は,提案アルゴリズムの正当性とプライバシ特性について述べる。
論文 参考訳(メタデータ) (2022-10-01T17:17:22Z) - Towards Task-Prioritized Policy Composition [10.477909792349823]
強化学習のためのタスク優先型合成フレームワークを提案する。
我々のフレームワークは、知識伝達とモジュラー設計を促進すると同時に、強化学習エージェントのデータ効率とデータ再利用を大幅に向上させる可能性がある。
ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。
論文 参考訳(メタデータ) (2022-09-20T08:08:04Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Cooperative Multi-Agent Reinforcement Learning with Partial Observations [16.895704973433382]
マルチエージェント強化学習(MARL)のための分散ゼロ階ポリシー最適化手法を提案する。
エージェントは、グローバルに蓄積された報酬の局所的な見積もりを使用して、ローカルポリシー機能を更新するために必要なローカルポリシー勾配を計算することができる。
本研究では, 一定段差の分散ゼロ階次ポリシ最適化手法が, 大域的目的関数の定常点であるポリシの近傍に収束することを示す。
論文 参考訳(メタデータ) (2020-06-18T19:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。