論文の概要: Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04626v1
- Date: Thu, 05 Jun 2025 04:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.534734
- Title: Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning
- Title(参考訳): シングルエージェントとフェデレーション強化学習のための低コストレグレット最適Q-ラーニング
- Authors: Haochen Zhang, Zhong Zheng, Lingzhou Xue,
- Abstract要約: オンライン単エージェント強化学習(RL)とフェデレーション付きRL(FRL)の問題点について検討する。
本稿では,Q-EarlySettled-LowCostとFedQ-EarlySettled-LowCostという2つの新しいモデルレスRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.895986534376972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by real-world settings where data collection and policy deployment -- whether for a single agent or across multiple agents -- are costly, we study the problem of on-policy single-agent reinforcement learning (RL) and federated RL (FRL) with a focus on minimizing burn-in costs (the sample sizes needed to reach near-optimal regret) and policy switching or communication costs. In parallel finite-horizon episodic Markov Decision Processes (MDPs) with $S$ states and $A$ actions, existing methods either require superlinear burn-in costs in $S$ and $A$ or fail to achieve logarithmic switching or communication costs. We propose two novel model-free RL algorithms -- Q-EarlySettled-LowCost and FedQ-EarlySettled-LowCost -- that are the first in the literature to simultaneously achieve: (i) the best near-optimal regret among all known model-free RL or FRL algorithms, (ii) low burn-in cost that scales linearly with $S$ and $A$, and (iii) logarithmic policy switching cost for single-agent RL or communication cost for FRL. Additionally, we establish gap-dependent theoretical guarantees for both regret and switching/communication costs, improving or matching the best-known gap-dependent bounds.
- Abstract(参考訳): データ収集とポリシーの展開 -- 単一のエージェントであれ、複数のエージェントであれ -- がコストがかかる現実の環境で、私たちは、バーンインコストの最小化(ほぼ最適の後悔に達するのに必要なサンプルサイズ)とポリシーの切り替えや通信コストの最小化に焦点をあてて、オンプレミスのシングルエージェント強化学習(RL)とフェデレーションRL(FRL)の問題を調査します。
並列有限水平型マルコフ決定プロセス(MDP)には$S$状態と$A$アクションがあり、既存のメソッドは$S$と$A$の超線形バーンインコストを必要とするか、対数スイッチングや通信コストを達成できない。
本稿では,本研究で最初に実現されたモデルレスRLアルゴリズムであるQ-EarlySettled-LowCostとFedQ-EarlySettled-LowCostの2つを提案する。
(i)モデルなしRLアルゴリズムやFRLアルゴリズムの中では,最良に近い最良な後悔である。
(ii)$S$と$A$で線形にスケールする低バーンインコスト
三 単エージェントRLの対数政策切替コスト又はFRLの通信コスト
さらに,後悔と切り替え/コミュニケーションの両コストに対するギャップ依存理論的保証を確立し,最もよく知られたギャップ依存境界を改善したり適合させたりする。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z) - Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。
我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。
本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:41:29Z) - Model-Free $\mu$ Synthesis via Adversarial Reinforcement Learning [2.2725929250900947]
静的な$D$-scalingでステートフィードバックの$mu$合成を解くために、よく知られた$DK$-iterationのモデルフリーバージョンを開発する。
提案アルゴリズムでは、最近開発された二重ループ逆RL法をサブルーチンとして、古典的な中央経路アルゴリズムを模倣する。
本研究は, 対向RLとロバスト制御の関連性に新たな光を当てた。
論文 参考訳(メタデータ) (2021-11-30T16:29:49Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。