Fugu-MT 論文翻訳(概要): Online Statistical Inference for Time-varying Sample-averaged Q-learning

論文の概要: Online Statistical Inference for Time-varying Sample-averaged Q-learning

arxiv url: http://arxiv.org/abs/2410.10737v1
Date: Mon, 14 Oct 2024 17:17:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 19:55:21.225753
Title: Online Statistical Inference for Time-varying Sample-averaged Q-learning
Title（参考訳）: 時間変化サンプル平均Q-ラーニングのためのオンライン統計的推測
Authors: Saunak Kumar Panda, Ruiqi Liu, Yisha Xiang,
Abstract要約: 本稿では,バッチ平均Qラーニングの時間変化を,サンプル平均Qラーニングと呼ぶ。本研究では, サンプル平均化アルゴリズムの正規性について, 温和な条件下での洞察を提供する新しい枠組みを開発する。古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニングの時間変化は、シングルサンプルQ-ラーニングと定数バッチQ-ラーニングのどちらよりも一貫して優れていた。
参考スコア（独自算出の注目度）: 2.2374171443798034
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) has emerged as a key approach for training agents in complex and uncertain environments. Incorporating statistical inference in RL algorithms is essential for understanding and managing uncertainty in model performance. This paper introduces a time-varying batch-averaged Q-learning algorithm, termed sampleaveraged Q-learning, which improves upon traditional single-sample Q-learning by aggregating samples of rewards and next states to better account for data variability and uncertainty. We leverage the functional central limit theorem (FCLT) to establish a novel framework that provides insights into the asymptotic normality of the sample-averaged algorithm under mild conditions. Additionally, we develop a random scaling method for interval estimation, enabling the construction of confidence intervals without requiring extra hyperparameters. Numerical experiments conducted on classic OpenAI Gym environments show that the time-varying sample-averaged Q-learning method consistently outperforms both single-sample and constant-batch Q-learning methods, achieving superior accuracy while maintaining comparable learning speeds.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、複雑で不確実な環境でエージェントを訓練するための重要なアプローチである。 RLアルゴリズムに統計的推論を組み込むことは、モデル性能の不確実性を理解し管理するために不可欠である。本稿では,サンプル平均Q-ラーニングと呼ばれるバッチ平均Q-ラーニングアルゴリズムを提案する。我々は、関数型中央極限定理(FCLT)を利用して、温和な条件下でのサンプル平均アルゴリズムの漸近正規性に関する洞察を提供する新しい枠組みを確立する。さらに,余分なハイパーパラメータを必要としない信頼区間の構築が可能な区間推定のためのランダムなスケーリング手法を開発した。古典的なOpenAI Gym環境下で行った数値実験により、サンプル平均Q-ラーニング法は単サンプルと定バッチQ-ラーニング法の両方を一貫して上回っており、同等の学習速度を維持しながら精度が向上していることが示された。

関連論文リスト

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning [51.56484100374058]
本稿では,ICLリスクをベイズギャップとポストリアバリアンスの2つのコンポーネントに分割する基本的リスク分解を導入する。一様アテンション変換器の場合、このギャップの非漸近上界を導出し、事前学習プロンプトの数への依存を明確にする。後方変動は本質的なタスクの不確実性を表すモデルに依存しないリスクである。
論文参考訳（メタデータ） (2025-10-13T03:42:31Z)
CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文参考訳（メタデータ） (2025-10-01T15:41:27Z)
Generative QoE Modeling: A Lightweight Approach for Telecom Networks [6.473372512447993]
本研究では,計算効率,解釈可能性,予測精度のバランスをとる軽量な生成モデリングフレームワークを提案する。ベクトル量子化(VQ)を前処理技術として用いることにより、連続的なネットワーク機能は事実上離散的な分類記号に変換される。このVQ-HMMパイプラインは、新しい未知のデータに対する確率的推論をサポートしながら、動的QoEパターンをキャプチャするモデルの能力を高める。
論文参考訳（メタデータ） (2025-04-30T06:19:37Z)
Uncertainty quantification for Markov chains with application to temporal difference learning [63.49764856675643]
マルコフ連鎖のベクトル値および行列値関数に対する新しい高次元濃度不等式とベリー・エッシー境界を開発する。我々は、強化学習における政策評価に広く用いられているTD学習アルゴリズムを解析する。
論文参考訳（メタデータ） (2025-02-19T15:33:55Z)
A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文参考訳（メタデータ） (2024-09-21T15:50:59Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
Echoes of Socratic Doubt: Embracing Uncertainty in Calibrated Evidential Reinforcement Learning [1.7898305876314982]
提案アルゴリズムは,共形推論の原理に基づいて,深い明解学習と量子キャリブレーションを組み合わせる。ミニチュア化されたアタリゲームスイート(MinAtar)でテストされる。
論文参考訳（メタデータ） (2024-02-11T05:17:56Z)
The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文参考訳（メタデータ） (2022-03-14T17:59:01Z)
Pessimistic Q-Learning for Offline Reinforcement Learning: Towards Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T15:39:36Z)
Online Target Q-learning with Reverse Experience Replay: Efficiently finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。本稿では,新しいQ-Rex法とQ-RexDaReを提案する。 Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文参考訳（メタデータ） (2021-10-16T01:47:41Z)
Task-Specific Normalization for Continual Learning of Blind Image Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文参考訳（メタデータ） (2021-07-28T15:21:01Z)
Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文参考訳（メタデータ） (2021-05-25T14:35:46Z)
Straggler-Resilient Federated Learning: Leveraging the Interplay Between Statistical Accuracy and System Heterogeneity [57.275753974812666]
フェデレーション学習は、データをローカルに保持しながら、クライアントのネットワークに分散したデータサンプルから学習する。本稿では,学習手順を高速化するために,クライアントデータの統計的特徴を取り入れてクライアントを適応的に選択する,ストラグラー・レジリエントなフェデレーション学習手法を提案する。
論文参考訳（メタデータ） (2020-12-28T19:21:14Z)
Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文参考訳（メタデータ） (2020-09-29T04:58:17Z)
Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing [2.5137859989323537]
多数のポリシーネットワークは、パラメータをランダムに推測して生成され、その後、ベンチマークタスクで評価される。本手法は, 環境の複雑さを分離し, 課題の種類を明確にし, 課題の難易度を統計的に解析するための適切な基盤を提供する。我々は、OpenAI Gymの様々な古典的な制御ベンチマークでアプローチをテストし、そこでは、訓練されていない小さなネットワークが様々なタスクに対して堅牢なベースラインを提供することを示す。
論文参考訳（メタデータ） (2020-04-16T15:32:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。