論文の概要: FORLER: Federated Offline Reinforcement Learning with Q-Ensemble and Actor Rectification
- arxiv url: http://arxiv.org/abs/2602.02055v1
- Date: Mon, 02 Feb 2026 12:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.154093
- Title: FORLER: Federated Offline Reinforcement Learning with Q-Ensemble and Actor Rectification
- Title(参考訳): FORLER: Q-Ensemble と Actor Rectification によるオフライン強化学習
- Authors: Nan Qiao, Sheng Yue,
- Abstract要約: インターネット・オブ・シングスシステムでは、生データを共有せずに並行的な政策訓練を可能にすることにより、連合学習はオンライン強化学習(RL)を進歩させてきた。
本稿では,サーバ上のQアンサンブルアグリゲーションとデバイス上でのアクタ修正を組み合わせたFOLLERを提案する。
サーバは、プライバシを損なうことなく、デバイスのQ関数を堅牢にマージし、ポリシーの汚染を抑制し、リソースに制約のあるハードウェアから重い計算をシフトする。
- 参考スコア(独自算出の注目度): 5.423004756752519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Internet-of-Things systems, federated learning has advanced online reinforcement learning (RL) by enabling parallel policy training without sharing raw data. However, interacting with real environments online can be risky and costly, motivating offline federated RL (FRL), where local devices learn from fixed datasets. Despite its promise, offline FRL may break down under low-quality, heterogeneous data. Offline RL tends to get stuck in local optima, and in FRL, one device's suboptimal policy can degrade the aggregated model, i.e., policy pollution. We present FORLER, combining Q-ensemble aggregation on the server with actor rectification on devices. The server robustly merges device Q-functions to curb policy pollution and shift heavy computation off resource-constrained hardware without compromising privacy. Locally, actor rectification enriches policy gradients via a zeroth-order search for high-Q actions plus a bespoke regularizer that nudges the policy toward them. A $δ$-periodic strategy further reduces local computation. We theoretically provide safe policy improvement performance guarantees. Extensive experiments show FORLER consistently outperforms strong baselines under varying data quality and heterogeneity.
- Abstract(参考訳): インターネット・オブ・シングスシステムでは、生データを共有せずに並行的な政策訓練を可能にすることにより、連合学習はオンライン強化学習(RL)を進歩させてきた。
しかし、オンラインの実際の環境と対話することは危険でコストがかかるため、ローカルデバイスが固定データセットから学習するオフラインフェデレーションRL(FRL)を動機付ける。
その約束にもかかわらず、オフラインFRLは低品質で不均一なデータの下で崩壊する可能性がある。
オフラインのRLは局所的な最適化において立ち往生しがちであり、FRLでは、あるデバイスの最適以下のポリシーは、集約されたモデル、すなわちポリシー汚染を分解することができる。
本稿では,サーバ上のQアンサンブルアグリゲーションとデバイス上でのアクタ修正を組み合わせたFOLLERを提案する。
サーバは、プライバシを損なうことなく、デバイスのQ関数を堅牢にマージし、ポリシーの汚染を抑制し、リソースに制約のあるハードウェアから重い計算をシフトする。
局所的には、アクターの正当性は、高Qアクションのゼロオーダー検索と、それに対するポリシーを練る好ましくない正規化によってポリシーの勾配を増す。
δ$- periodic 戦略は局所計算をさらに削減する。
理論的には、安全な政策改善性能保証を提供する。
大規模な実験では、FOLLERはデータ品質と不均一性の違いにより、強いベースラインを一貫して上回っている。
関連論文リスト
- Adaptive Scaling of Policy Constraints for Offline Reinforcement Learning [24.46783760408068]
オフライン強化学習(RL)は、環境の相互作用なしに、固定データセットから効果的なポリシーを学習することを可能にする。
既存の方法は、通常、オフラインのRLトレーニングで遭遇する分散シフトを軽減するためにポリシー制約を使用する。
本稿では,RLと行動クローニング(BC)を動的にバランスする2階微分可能なフレームワークであるAdaptive Scaling of Policy Constraints (ASPC)を提案する。
論文 参考訳(メタデータ) (2025-08-27T14:00:18Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees [23.838354396418868]
本稿では,オンラインアクター批判手法とオフラインデータを組み合わせたハイブリッドRLアルゴリズムを提案する。
当社のアプローチでは,オフラインデータ上でのオフライントレーニングの手順を,オンラインNPGフレームワークに統合する。
論文 参考訳(メタデータ) (2023-11-14T18:45:56Z) - Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - A Maintenance Planning Framework using Online and Offline Deep
Reinforcement Learning [4.033107207078282]
本稿では,水管の劣化防止のための最適再生方針を自動決定するために,深部強化学習(DRL)ソリューションを開発した。
エージェントは、DQN(Deep Q-learning)を用いて、最小限の平均コストと失敗確率の低減で最適なポリシーを学ぶように訓練する。
DRLベースの政策は、標準的な予防的、是正的、および欲求的な代替案よりも改善されていることを実証する。
論文 参考訳(メタデータ) (2022-08-01T12:41:06Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。