論文の概要: Online Statistical Inference of Constant Sample-averaged Q-Learning
- arxiv url: http://arxiv.org/abs/2603.26982v1
- Date: Fri, 27 Mar 2026 20:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.718509
- Title: Online Statistical Inference of Constant Sample-averaged Q-Learning
- Title(参考訳): 定サンプル平均Q-Learningのオンライン統計的推定
- Authors: Saunak Kumar Panda, Tong Li, Ruiqi Liu, Yisha Xiang,
- Abstract要約: サンプル平均Q-ラーニング手法の統計的オンライン推論を行うためのフレームワークを提案する。
修正されたアプローチと従来のQ-ラーニングの両方で推論を行う実験を行う。
- 参考スコア(独自算出の注目度): 9.412266381808685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms have been widely used for decision-making tasks in various domains. However, the performance of these algorithms can be impacted by high variance and instability, particularly in environments with noise or sparse rewards. In this paper, we propose a framework to perform statistical online inference for a sample-averaged Q-learning approach. We adapt the functional central limit theorem (FCLT) for the modified algorithm under some general conditions and then construct confidence intervals for the Q-values via random scaling. We conduct experiments to perform inference on both the modified approach and its traditional counterpart, Q-learning using random scaling and report their coverage rates and confidence interval widths on two problems: a grid world problem as a simple toy example and a dynamic resource-matching problem as a real-world example for comparison between the two solution approaches.
- Abstract(参考訳): 強化学習アルゴリズムは、様々な領域における意思決定タスクに広く用いられている。
しかし、これらのアルゴリズムの性能は、特にノイズやスパース報酬のある環境において、高いばらつきと不安定性によって影響を受ける可能性がある。
本稿では,サンプル平均Q-ラーニング手法の統計的オンライン推論を行うためのフレームワークを提案する。
改良アルゴリズムに対する関数中心極限定理 (FCLT) をいくつかの一般条件下で適用し, ランダムスケーリングによるQ値に対する信頼区間を構築する。
修正された手法と従来の手法の両方を用いて、ランダムなスケーリングを用いたQ-ラーニングを行い、そのカバレッジ率と信頼区間幅を、単純な玩具の例としてグリッドワールド問題と、2つのソリューションのアプローチの比較のための実例として動的リソースマッチング問題という2つの問題について報告する。
関連論文リスト
- A framework to evaluate the performance of Variational Quantum Algorithms [0.0]
変分量子アルゴリズム(VQA)はノイズ量子デバイスにおける最適化問題を解くための有望な手法である。
VQAのベンチマークは、その振る舞いと標準化されたパフォーマンス基準の欠如のために難しい。
本研究は、擬似非制約二項最適化問題に適用されるVQAを評価するための一般的なフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-21T13:15:57Z) - Online Inference of Constrained Optimization: Primal-Dual Optimality and Sequential Quadratic Programming [55.848340925419286]
等式制約と不等式制約を持つ2次最適化問題の解に対するオンライン統計的推測について検討した。
これらの問題を解決するための逐次プログラミング(SSQP)手法を開発し、目的の近似と制約の線形近似を逐次実行することでステップ方向を計算する。
本手法は,Hjek と Le Cam の意味での最適原始双対制限行列を用いて局所正規性を示す。
論文 参考訳(メタデータ) (2025-11-27T06:16:17Z) - Asymptotic Analysis of Sample-averaged Q-learning [2.2374171443798034]
本稿では、サンプル平均Qラーニング(SA-QL)と呼ばれる、時間変化のバッチ平均Qラーニングのためのフレームワークを提案する。
サンプル平均化アルゴリズムの機能的中心極限を軽度条件下で利用し,間隔推定のためのランダムなスケーリング手法を開発した。
この研究は、サンプル平均Q-ラーニングのための統一理論基盤を確立し、効率的なバッチスケジューリングとRLアルゴリズムの統計的推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-10-14T17:17:19Z) - An Empirical Investigation of Value-Based Multi-objective Reinforcement
Learning for Stochastic Environments [1.26404863283601]
本稿では、値ベースMORL Q-learningアルゴリズムがSER-Optimal Policyを学習する頻度に影響を与える要因について検討する。
これらのアルゴリズムの安定性と収束性に対するノイズQ値推定問題の重大な影響を強調した。
論文 参考訳(メタデータ) (2024-01-06T08:43:08Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Distributed Methods with Compressed Communication for Solving
Variational Inequalities, with Theoretical Guarantees [115.08148491584997]
本稿では,MASHA1 と MASHA2 の圧縮通信による変分不等式とサドル点問題の解法について理論的に検討した。
新しいアルゴリズムは双方向圧縮をサポートし、バッチの設定や、クライアントの部分的な参加を伴うフェデレーション学習のために修正することもできる。
論文 参考訳(メタデータ) (2021-10-07T10:04:32Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。