論文の概要: ReversedQ: Opportunities for Faster Q-Learning in Episodic Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.20592v1
- Date: Wed, 20 May 2026 00:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.423298
- Title: ReversedQ: Opportunities for Faster Q-Learning in Episodic Online Reinforcement Learning
- Title(参考訳): ReversedQ: オンライン強化学習におけるQ-Learningの高速化の可能性
- Authors: Sofia R. Miskala-Dinc, Aviva Prins,
- Abstract要約: 有限水平マルコフ決定過程(MDP)におけるQ-ラーニングのモデルフリー化について検討した。
理論的な保証を証明するために遅延学習を頼りにすること。
- 参考スコア(独自算出の注目度): 0.8594140167290097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study model-free Q-learning in finite-horizon episodic Markov Decision Processes (MDPs) with stationary dynamics across episodes. We identify a central issue in nascent model-free posterior-sampling works: the reliance on delayed learning in order to prove theoretical guarantees. In particular, we identify three opportunities for faster learning - (i) value-function update order, (ii) update frequencies, and (iii) value-function initialization. Using Wang et al.'s RandomizedQ as a basis, we illustrate these changes and their individual (as well as cumulative) impact in multiple empirical studies. We find that our combined modifications, termed ReversedQ, improve scaled mean cumulative reward compared to RandomizedQ, from 9.53% to 78.78% in the Bidirectional Diabolical Combination Lock (BDCL), and from 21.76% to 61.81% in a chain MDP.
- Abstract(参考訳): 有限水平マルコフ決定過程(MDP)におけるQ-ラーニングのモデルフリー化について検討した。
我々は,理論的な保証を証明するために,遅延学習への依存という,新しいモデルのない後部サンプリング作業の中心的課題を同定する。
特に、より速く学習する3つの機会を特定します。
(i)値関数更新順序
(二)更新周波数、及び
(iii)値関数の初期化。
Wang et al's RandomizedQ を基礎として、これらの変化とその個人(および累積的な)影響を複数の経験的研究で説明する。
この組み合わせはReversedQと呼ばれ、RandomizedQと比較してスケールド平均累積報酬を改良し、BDCLでは9.53%から78.78%、MDPでは21.76%から61.81%に改善した。
関連論文リスト
- Multimodal Learning on Low-Quality Data with Conformal Predictive Self-Calibration [72.0672328514289]
マルチモーダル学習は、しばしば低品質データの課題に悩まされる。
コンフォーマル予測自己校正(Conformal Predictive Self-Calibration)と呼ばれる統合フレームワークを提案する。
私たちのフレームワークは、既存の最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-05T14:48:52Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Asymptotic Analysis of Sample-averaged Q-learning [2.2374171443798034]
本稿では、サンプル平均Qラーニング(SA-QL)と呼ばれる、時間変化のバッチ平均Qラーニングのためのフレームワークを提案する。
サンプル平均化アルゴリズムの機能的中心極限を軽度条件下で利用し,間隔推定のためのランダムなスケーリング手法を開発した。
この研究は、サンプル平均Q-ラーニングのための統一理論基盤を確立し、効率的なバッチスケジューリングとRLアルゴリズムの統計的推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - Smart Sampling: Self-Attention and Bootstrapping for Improved Ensembled Q-Learning [0.6963971634605796]
アンサンブルQ学習のサンプル効率向上を目的とした新しい手法を提案する。
提案手法は,組立Qネットワークにマルチヘッド自己アテンションを組み込むとともに,組立Qネットワークが取り入れた状態-動作ペアをブートストラップする。
論文 参考訳(メタデータ) (2024-05-14T00:57:02Z) - SPQR: Controlling Q-ensemble Independence with Spiked Random Model for
Reinforcement Learning [4.671615537573023]
過大評価バイアスを軽減することは、深い強化学習にとって重要な課題である。
本稿では,強化学習のためのWishart Q-ensemble independent regularization (SPQR)を提案する。
我々は複数のオンラインおよびオフラインアンサンブルQ-ラーニングアルゴリズムにSPQRを実装している。
論文 参考訳(メタデータ) (2024-01-06T06:39:06Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。