論文の概要: Is Q-Learning Provably Efficient? An Extended Analysis
- arxiv url: http://arxiv.org/abs/2009.10396v1
- Date: Tue, 22 Sep 2020 09:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:22:35.200744
- Title: Is Q-Learning Provably Efficient? An Extended Analysis
- Title(参考訳): Q-Learningはおそらく効率的か?
拡張解析
- Authors: Kushagra Rastogi and Jonathan Lee and Fabrice Harel-Canada and Aditya
Joglekar
- Abstract要約: この研究は、論文Q-Learning Provicient is Efficient?の中で提示される理論結果の分析を拡張した。
我々は,モデルフリー強化学習において,おそらく最も重要なスレッドに関連する理論的保証を強化する必要性について,文脈的に調査する。
- 参考スコア(独自算出の注目度): 4.125889467550067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work extends the analysis of the theoretical results presented within
the paper Is Q-Learning Provably Efficient? by Jin et al. We include a survey
of related research to contextualize the need for strengthening the theoretical
guarantees related to perhaps the most important threads of model-free
reinforcement learning. We also expound upon the reasoning used in the proofs
to highlight the critical steps leading to the main result showing that
Q-learning with UCB exploration achieves a sample efficiency that matches the
optimal regret that can be achieved by any model-based approach.
- Abstract(参考訳): この研究は、論文Q-Learning Provicient is Efficient?の中で提示される理論結果の分析を拡張した。
ジンらによる。
我々は,モデルフリー強化学習において,おそらく最も重要なスレッドに関連する理論的保証を強化する必要性について,文脈的に調査する。
また,ucb探索によるq-learningが,モデルベースアプローチで達成できる最適な後悔に合致するサンプル効率を達成することを示す,主要な結果につながる重要なステップを強調するために,証明で使用される推論についても紹介する。
関連論文リスト
- RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner [2.779063752888881]
自己学習推論(STaR)フレームワークは、強化学習を使用して推論ステップを自動的に生成する。
STaRとその変種は経験的成功を示しているが、これらの改善を説明する理論的基盤は欠如している。
この研究は、CoT推論とSTaRにおける強化学習の有効性を理解するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-31T13:17:53Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - SAAS: Solving Ability Amplification Strategy for Enhanced Mathematical Reasoning in Large Language Models [4.090307917818891]
我々は,CoT(Chain-of-Thought)学習とPoT(Program-of-Thought)学習の統合に注力する。
本稿では,CoT学習からPoT学習へ戦略的に移行する,SAAS(Solving Ability Amplification Strategy)という逐次学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T04:25:47Z) - Machine learning-based system reliability analysis with Gaussian Process Regression [1.0445957451908694]
このような探索を容易にするいくつかの定理を提案する。
候補設計サンプル間の相関を考慮・無視する事例については, 精巧に考察した。
我々は、Kriging相関を無視する場合に、よく知られたU学習関数を最適な学習関数に再構成できることを証明した。
論文 参考訳(メタデータ) (2024-03-17T07:17:07Z) - Learn to Accumulate Evidence from All Training Samples: Theory and
Practice [7.257751371276488]
Evidential Deep Learningは、決定論的ニューラルネットワークの不確実性を認識するための、原則的かつ計算的に効率的な方法を提供する。
既存の明らかなアクティベーション関数はゼロエビデンス領域を生成するため、モデルがそのような領域に落ちてくるトレーニングサンプルから学ぶことができない。
我々の理論的基盤に基づく顕在的活性化関数のより深い分析は、新しい正則化器の設計を刺激する。
論文 参考訳(メタデータ) (2023-06-19T18:27:12Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。