論文の概要: Lookahead-Bounded Q-Learning
- arxiv url: http://arxiv.org/abs/2006.15690v1
- Date: Sun, 28 Jun 2020 19:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 02:24:25.808792
- Title: Lookahead-Bounded Q-Learning
- Title(参考訳): ルックアヘッド境界Q-Learning
- Authors: Ibrahim El Shar, Daniel R. Jiang
- Abstract要約: 本稿では,新しいQ-ラーニング法であるルックアヘッドバウンドQ-ラーニングアルゴリズム(LBQL)を紹介する。
われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
- 参考スコア(独自算出の注目度): 8.738692817482526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the lookahead-bounded Q-learning (LBQL) algorithm, a new,
provably convergent variant of Q-learning that seeks to improve the performance
of standard Q-learning in stochastic environments through the use of
``lookahead'' upper and lower bounds. To do this, LBQL employs previously
collected experience and each iteration's state-action values as dual feasible
penalties to construct a sequence of sampled information relaxation problems.
The solutions to these problems provide estimated upper and lower bounds on the
optimal value, which we track via stochastic approximation. These quantities
are then used to constrain the iterates to stay within the bounds at every
iteration. Numerical experiments on benchmark problems show that LBQL exhibits
faster convergence and more robustness to hyperparameters when compared to
standard Q-learning and several related techniques. Our approach is
particularly appealing in problems that require expensive simulations or
real-world interactions.
- Abstract(参考訳): 我々は,'lookahead' と下限を用いた確率的環境における標準 q-learning の性能向上を目的とした,新しい,確実に収束する q-learning の変種である lookahead-bounded q-learning (lbql) アルゴリズムを紹介する。
これを実現するために、LBQLでは、事前に収集された経験と各イテレーションの状態-アクションの値を二重実現可能なペナルティとして使用して、サンプル情報緩和問題のシーケンスを構築する。
これらの問題の解は、確率近似を用いて追跡する最適値の上限と下限を推定する。
これらの量はイテレーション毎にイテレートが境界内に留まるように制約するために使われる。
ベンチマーク問題に関する数値実験により、LBQLは標準的なQ-ラーニングや関連するいくつかの手法と比較して、より高速な収束とハイパーパラメータの堅牢性を示すことが示された。
われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Two-Step Q-Learning [0.0]
そこで本研究では,重要でない2段階のQ-ラーニングアルゴリズムを提案する。
数値実験により、2段階のQ-ラーニングとそのスムーズな変形の優れた性能が示された。
論文 参考訳(メタデータ) (2024-07-02T15:39:00Z) - Pointer Networks with Q-Learning for Combinatorial Optimization [55.2480439325792]
我々は、モデルフリーQ値ポリシー近似をPointer Networks(Ptr-Nets)と統合したハイブリッドニューラルネットワークであるPointer Q-Network(PQN)を紹介する。
実験により,本手法の有効性を実証し,不安定な環境でモデルをテストする。
論文 参考訳(メタデータ) (2023-11-05T12:03:58Z) - Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms [65.268245109828]
我々はカーンズのSQオラクルとヴァリアントの弱い評価オラクルからインスピレーションを得ます。
評価クエリから学習するための非条件の下限を出力する,広範かつ直感的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-26T18:23:21Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Accelerating Quadratic Optimization with Reinforcement Learning [39.64039435793601]
強化学習は、収束を加速するためにパラメータをチューニングするためのポリシーを学ぶことができるかを示す。
我々のポリシーであるRLQPは最先端のQPソルバを最大3倍に上回ります。
RLQPは、異なるアプリケーションから異なる次元と構造を持つ以前に見られなかった問題に驚くほどよく一般化する。
論文 参考訳(メタデータ) (2021-07-22T17:59:10Z) - Q-Match: Iterative Shape Matching via Quantum Annealing [64.74942589569596]
形状対応を見つけることは、NP-hard quadratic assignment problem (QAP)として定式化できる。
本稿では,アルファ拡大アルゴリズムに触発されたQAPの反復量子法Q-Matchを提案する。
Q-Match は、実世界の問題にスケールできるような長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。
論文 参考訳(メタデータ) (2021-05-06T17:59:38Z) - Ensemble Bootstrapping for Q-Learning [15.07549655582389]
Ensemble Bootstrapped Q-Learning(EBQL)という新しいバイアス低減アルゴリズムを紹介します。
EBQLライクな更新は、独立確率変数の集合の最大平均を推定する際に低いMSEをもたらす。
過大評価と過小評価の両方が準最適性能をもたらす領域が存在することを示す。
論文 参考訳(メタデータ) (2021-02-28T10:19:47Z) - Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。
多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。
SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文 参考訳(メタデータ) (2020-07-14T00:03:25Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。