論文の概要: Sufficient Exploration for Convex Q-learning
- arxiv url: http://arxiv.org/abs/2210.09409v1
- Date: Mon, 17 Oct 2022 20:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 15:59:49.332811
- Title: Sufficient Exploration for Convex Q-learning
- Title(参考訳): 凸q学習のための十分な探索
- Authors: Fan Lu, Prashant Mehta, Sean Meyn and Gergely Neu
- Abstract要約: 本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
コンベックスQラーニングは,標準Qラーニングが分岐する場合に有効であることが示されている。
- 参考スコア(独自算出の注目度): 10.75319149461189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years there has been a collective research effort to find new
formulations of reinforcement learning that are simultaneously more efficient
and more amenable to analysis. This paper concerns one approach that builds on
the linear programming (LP) formulation of optimal control of Manne. A primal
version is called logistic Q-learning, and a dual variant is convex Q-learning.
This paper focuses on the latter, while building bridges with the former. The
main contributions follow: (i) The dual of convex Q-learning is not precisely
Manne's LP or a version of logistic Q-learning, but has similar structure that
reveals the need for regularization to avoid over-fitting. (ii) A sufficient
condition is obtained for a bounded solution to the Q-learning LP. (iii)
Simulation studies reveal numerical challenges when addressing sampled-data
systems based on a continuous time model. The challenge is addressed using
state-dependent sampling. The theory is illustrated with applications to
examples from OpenAI gym. It is shown that convex Q-learning is successful in
cases where standard Q-learning diverges, such as the LQR problem.
- Abstract(参考訳): 近年,より効率的かつ解析に適した強化学習の新たな定式化を見つけるための総合的な研究が試みられている。
本稿では,マンヌの最適制御を線形プログラミング(LP)で定式化する手法について述べる。
原始版はロジスティックQラーニングと呼ばれ、二重版は凸Qラーニングである。
本論文は,橋梁を架けながら,後者に着目したものである。
主な貢献は次のとおりである。
(i)凸q-ラーニングの双対は正確にはマンネのlpやロジスティックq-ラーニングのバージョンではなく、過剰フィッティングを避けるために正規化の必要性を示す同様の構造を持つ。
(ii)QラーニングLPに対する有界解に対して十分な条件が得られる。
(iii)連続時間モデルに基づくサンプルデータシステムに対処する際の数値的課題を明らかにする。
この課題は状態依存サンプリングによって解決される。
この理論はOpenAIのジムの例に応用されている。
コンベックスQ学習は,LQR問題などの標準的なQ学習が分岐する場合に成功している。
関連論文リスト
- Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Regularized Q-learning through Robust Averaging [3.4354636842203026]
本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
2RA Q-learningは最適ポリシーに収束し、理論平均二乗誤差を解析する。
論文 参考訳(メタデータ) (2024-05-03T15:57:26Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Finite-Time Analysis of Asynchronous Q-Learning with Discrete-Time
Switching System Models [6.85316573653194]
一定のステップサイズを持つQ学習を離散時間切替線形系として自然に定式化できることを実証する。
主に制御フレームワークに基づくQ-ラーニングに関する新規かつ直感的な洞察を提供する。
論文 参考訳(メタデータ) (2021-02-17T05:32:07Z) - Analysis of Q-learning with Adaptation and Momentum Restart for Gradient
Descent [47.3692506462581]
AMSGradを更新したQ-ラーニングアルゴリズムであるQ-AMSGradの収束率を特徴付ける。
性能向上のために,Q-AMSGradに運動量再起動方式を導入し,Q-AMSGradRアルゴリズムを提案する。
線形2次規制問題に対する実験により、提案した2つのQ-ラーニングアルゴリズムは、SGD更新でバニラQ-ラーニングより優れていることが示された。
論文 参考訳(メタデータ) (2020-07-15T01:11:43Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。