論文の概要: Q-Learning with Shift-Aware Upper Confidence Bound in Non-Stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.03181v1
- Date: Fri, 03 Oct 2025 16:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.499974
- Title: Q-Learning with Shift-Aware Upper Confidence Bound in Non-Stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習におけるシフト対応の上層信頼境界を用いたQ-Learning
- Authors: Ha Manh Bui, Felix Parker, Kimia Ghobadi, Anqi Liu,
- Abstract要約: 有限水平エピソードおよび無限水平割引マルコフ決定過程(MDPs)における分布シフトの非定常強化学習(Non-Stationary Reinforcement Learning, RL)について検討する。
有限水平条件では、そのような変化はエージェントが環境と相互作用するときに任意の時間ステップで起こる。
Q-learning Upper Confidence Bound Algorithm (QUCB)は、分散シフトによって学習中に適切なポリシーを発見することができるが、このポリシーはシフトが発生した後、準最適報酬を利用することができる。
本稿では,シフト対応Q-LearningUCBアルゴリズムであるdentity-QUCBを提案する。
- 参考スコア(独自算出の注目度): 15.525099902530528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the Non-Stationary Reinforcement Learning (RL) under distribution shifts in both finite-horizon episodic and infinite-horizon discounted Markov Decision Processes (MDPs). In the finite-horizon case, the transition functions may suddenly change at a particular episode. In the infinite-horizon setting, such changes can occur at an arbitrary time step during the agent's interaction with the environment. While the Q-learning Upper Confidence Bound algorithm (QUCB) can discover a proper policy during learning, due to the distribution shifts, this policy can exploit sub-optimal rewards after the shift happens. To address this issue, we propose Density-QUCB (DQUCB), a shift-aware Q-learning~UCB algorithm, which uses a transition density function to detect distribution shifts, then leverages its likelihood to enhance the uncertainty estimation quality of Q-learning~UCB, resulting in a balance between exploration and exploitation. Theoretically, we prove that our oracle DQUCB achieves a better regret guarantee than QUCB. Empirically, our DQUCB enjoys the computational efficiency of model-free RL and outperforms QUCB baselines by having a lower regret across RL tasks, as well as a real-world COVID-19 patient hospital allocation task using a Deep-Q-learning architecture.
- Abstract(参考訳): 有限水平エピソードおよび無限水平割引マルコフ決定過程(MDPs)における分布シフトの非定常強化学習(Non-Stationary Reinforcement Learning, RL)について検討した。
有限ホライゾンの場合、遷移関数は特定のエピソードで突然変化する。
無限水平条件では、そのような変化はエージェントが環境と相互作用するときに任意の時間ステップで起こる。
Q-learning Upper Confidence Bound Algorithm (QUCB)は、分散シフトによって学習中に適切なポリシーを発見することができるが、このポリシーはシフトが発生した後、準最適報酬を利用することができる。
この問題に対処するために,遷移密度関数を用いて分布シフトを検出し,その可能性を利用してQ-ラーニング〜UCBの不確実性推定品質を向上し,探索と利用のバランスをとるシフト対応Q-ラーニング〜UCBアルゴリズムであるDQUCBを提案する。
理論的には、我々のオラクルDQUCBがQUCBよりも良い後悔の保証を達成できることを証明している。
実証的に、我々のDQUCBは、モデルフリーのRLの計算効率を享受し、QUCBのベースラインを上回り、RLのタスクに対する後悔度を低くし、また、Deep-Q-learningアーキテクチャを用いた現実世界のCOVID-19患者病院割り当てタスクも楽しめます。
関連論文リスト
- A Unified Gradient-based Framework for Task-agnostic Continual Learning-Unlearning [30.2773429357068]
近年の深層モデルの進歩は、知識獲得のための連続学習(CL)とデータ除去のための機械アンラーニング(MU)を組み合わせたインテリジェントシステムの必要性を強調している。
Kullback-Leibler の発散最小化に基づく統一最適化フレームワークにより,本質的な接続を明らかにする。
実験により、提案したUG-CLUフレームワークは、複数のデータセットやモデルアーキテクチャにわたるインクリメンタルラーニング、正確なアンラーニング、知識安定性を効果的に調整することを示した。
論文 参考訳(メタデータ) (2025-05-21T06:49:05Z) - Continuous Knowledge-Preserving Decomposition with Adaptive Layer Selection for Few-Shot Class-Incremental Learning [73.59672160329296]
CKPD-FSCILは、事前訓練された重量の未使用容量を解放する統合フレームワークである。
本手法は,適応性と知識保持の両面で,最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-01-09T07:18:48Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - VQC-Based Reinforcement Learning with Data Re-uploading: Performance and Trainability [0.8192907805418583]
強化学習(Reinforcement Learning, RL)は、人間の監督なしに知的意思決定を行うエージェントを設計する。
Deep NNを使用するRLアルゴリズムであるDeep Q-Learningは、いくつかの特定のタスクで超人的なパフォーマンスを達成した。
また、RLアルゴリズムの関数近似器として変分量子回路(VQC)を用いることもできる。
論文 参考訳(メタデータ) (2024-01-21T18:00:15Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Assured RL: Reinforcement Learning with Almost Sure Constraints [0.0]
我々は、状態遷移とアクション三重項に対するほぼ確実に制約のあるマルコフ決定過程の最適方針を求める問題を考える。
バリアベースの分解を満たす値とアクション値関数を定義する。
我々は,Q-Learningに基づくバリア学習アルゴリズムを開発し,そのような安全でない状態-動作ペアを同定する。
論文 参考訳(メタデータ) (2020-12-24T00:29:28Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - QTRAN++: Improved Value Transformation for Cooperative Multi-Agent
Reinforcement Learning [70.382101956278]
QTRANは、最大級の共同作用値関数を学習できる強化学習アルゴリズムである。
理論的な保証は強いが、複雑な環境での実証的な性能は劣っている。
そこで我々はQTRAN++という改良版を提案する。
論文 参考訳(メタデータ) (2020-06-22T05:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。