論文の概要: Asymptotic Analysis of Sample-averaged Q-learning
- arxiv url: http://arxiv.org/abs/2410.10737v2
- Date: Wed, 26 Feb 2025 21:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:54:28.366276
- Title: Asymptotic Analysis of Sample-averaged Q-learning
- Title(参考訳): サンプル平均Q-ラーニングの漸近解析
- Authors: Saunak Kumar Panda, Ruiqi Liu, Yisha Xiang,
- Abstract要約: 本稿では、サンプル平均Qラーニング(SA-QL)と呼ばれる、時間変化のバッチ平均Qラーニングのためのフレームワークを提案する。
サンプル平均化アルゴリズムの機能的中心極限を軽度条件下で利用し,間隔推定のためのランダムなスケーリング手法を開発した。
この研究は、サンプル平均Q-ラーニングのための統一理論基盤を確立し、効率的なバッチスケジューリングとRLアルゴリズムの統計的推論に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 2.2374171443798034
- License:
- Abstract: Reinforcement learning (RL) has emerged as a key approach for training agents in complex and uncertain environments. Incorporating statistical inference in RL algorithms is essential for understanding and managing uncertainty in model performance. This paper introduces a generalized framework for time-varying batch-averaged Q-learning, termed sample-averaged Q-learning (SA-QL), which extends traditional single-sample Q-learning by aggregating samples of rewards and next states to better account for data variability and uncertainty. We leverage the functional central limit theorem (FCLT) to establish a novel framework that provides insights into the asymptotic normality of the sample-averaged algorithm under mild conditions. Additionally, we develop a random scaling method for interval estimation, enabling the construction of confidence intervals without requiring extra hyperparameters. Extensive numerical experiments across classic stochastic OpenAI Gym environments, including windy gridworld and slippery frozenlake, demonstrate how different batch scheduling strategies affect learning efficiency, coverage rates, and confidence interval widths. This work establishes a unified theoretical foundation for sample-averaged Q-learning, providing insights into effective batch scheduling and statistical inference for RL algorithms.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑で不確実な環境でエージェントを訓練するための重要なアプローチである。
RLアルゴリズムに統計的推論を組み込むことは、モデル性能の不確実性を理解し管理するために不可欠である。
本稿では,サンプル平均Qラーニング(SA-QL)と呼ばれる時間変動バッチ平均Qラーニングのための一般化フレームワークを提案する。
我々は、関数型中央極限定理(FCLT)を利用して、温和な条件下でのサンプル平均アルゴリズムの漸近正規性に関する洞察を提供する新しい枠組みを確立する。
さらに,余分なハイパーパラメータを必要としない信頼区間の構築が可能な区間推定のためのランダムなスケーリング手法を開発した。
風の強いグリッドワールドや滑りやすいフリーズレイクを含む古典確率的OpenAI Gym環境における大規模な数値実験は、異なるバッチスケジューリング戦略が学習効率、カバレッジ率、信頼区間幅にどのように影響するかを実証している。
この研究は、サンプル平均Q-ラーニングのための統一理論基盤を確立し、効率的なバッチスケジューリングとRLアルゴリズムの統計的推論に関する洞察を提供する。
関連論文リスト
- Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。
ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文 参考訳(メタデータ) (2024-02-11T05:17:56Z) - The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。
このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。
我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文 参考訳(メタデータ) (2022-03-14T17:59:01Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Straggler-Resilient Federated Learning: Leveraging the Interplay Between
Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。
本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T19:21:14Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。