論文の概要: Federated Ensemble-Directed Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.03097v2
- Date: Fri, 04 Oct 2024 04:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:45.837672
- Title: Federated Ensemble-Directed Offline Reinforcement Learning
- Title(参考訳): Federated Ensembleed Offline Reinforcement Learning
- Authors: Desik Rengarajan, Nitin Ragothaman, Dileep Kalathil, Srinivas Shakkottai,
- Abstract要約: We developed the Federated Ensemble-Directed Offline Reinforcement Learning Algorithm (FEDORA)
FEDORAは、組み合わせたデータプールよりもオフラインRLなど、他のアプローチよりも大幅に優れています。
実世界におけるFEDORAの性能をモバイルロボットで実証する。
- 参考スコア(独自算出の注目度): 14.851950005318894
- License:
- Abstract: We consider the problem of federated offline reinforcement learning (RL), a scenario under which distributed learning agents must collaboratively learn a high-quality control policy only using small pre-collected datasets generated according to different unknown behavior policies. Na\"{i}vely combining a standard offline RL approach with a standard federated learning approach to solve this problem can lead to poorly performing policies. In response, we develop the Federated Ensemble-Directed Offline Reinforcement Learning Algorithm (FEDORA), which distills the collective wisdom of the clients using an ensemble learning approach. We develop the FEDORA codebase to utilize distributed compute resources on a federated learning platform. We show that FEDORA significantly outperforms other approaches, including offline RL over the combined data pool, in various complex continuous control environments and real-world datasets. Finally, we demonstrate the performance of FEDORA in the real-world on a mobile robot. We provide our code and a video of our experiments at \url{https://github.com/DesikRengarajan/FEDORA}.
- Abstract(参考訳): 我々は、分散学習エージェントが、未知の行動ポリシーに基づいて生成された小さな事前収集データセットのみを用いて、高品質な制御ポリシーを協調的に学習しなければならないシナリオである、フェデレーションオフライン強化学習(RL)の問題を考える。
Na\"{i} 標準のオフラインRLアプローチと標準のフェデレーション学習アプローチを組み合わせてこの問題を解決することは、パフォーマンスの悪いポリシーにつながる。
そこで我々は,アンサンブル学習アプローチを用いて,クライアントの集合知を蒸留するFederated Ensemble-Directed Offline Reinforcement Learning Algorithm (FEDORA)を開発した。
我々は,フェデレート学習プラットフォーム上で分散計算資源を利用するFEDORAコードベースを開発した。
FEDORAは、様々な複雑な連続制御環境や実世界のデータセットにおいて、組み合わせたデータプール上でオフラインRLなど、他のアプローチよりも大幅に優れています。
最後に,モバイルロボットを用いた実世界におけるFEDORAの性能を示す。
コードとビデオは \url{https://github.com/DesikRengarajan/FEDORA} で公開しています。
関連論文リスト
- Diffusion-based Episodes Augmentation for Offline Multi-Agent Reinforcement Learning [24.501511979962746]
オフラインマルチエージェント強化学習(MARL)は、リアルタイムインタラクションが非現実的で、リスクが高く、コストがかかる環境において、RLアルゴリズムを効果的にデプロイするために、ますます重要視されている。
本稿では,拡散モデルを利用したオフラインMARLフレームワークであるQ-total lossによるEAQ, Episodes Augmentationを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:17:17Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Constraints Penalized Q-Learning for Safe Offline Reinforcement Learning [15.841609263723575]
安全オフライン強化学習(RL)の問題点について検討する。
目標は、オフラインデータのみに与えられる安全制約を満たしつつ、環境とのさらなる相互作用を伴わずに、長期的な報酬を最大化する政策を学習することである。
安全なRLとオフラインのRLの手法を組み合わせれば、準最適解しか学習できないことを示す。
論文 参考訳(メタデータ) (2021-07-19T16:30:14Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - Federated Residual Learning [53.77128418049985]
クライアントはローカルモデルを個別に訓練し、サーバ側で共有するモデルと共同で予測を行う。
この新しいフェデレートされた学習フレームワークを使用することで、統合トレーニングが提供するパフォーマンス上のメリットをすべて享受しながら、中央共有モデルの複雑さを最小限にすることができる。
論文 参考訳(メタデータ) (2020-03-28T19:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。