論文の概要: Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning
- arxiv url: http://arxiv.org/abs/2206.00796v1
- Date: Wed, 1 Jun 2022 23:26:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:28:33.220572
- Title: Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning
- Title(参考訳): リニアアーキテクチャによるq-learningの安定化と効率的な学習
- Authors: Andrea Zanette, Martin J. Wainwright
- Abstract要約: 本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
- 参考スコア(独自算出の注目度): 53.17258888552998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The $Q$-learning algorithm is a simple and widely-used stochastic
approximation scheme for reinforcement learning, but the basic protocol can
exhibit instability in conjunction with function approximation. Such
instability can be observed even with linear function approximation. In
practice, tools such as target networks and experience replay appear to be
essential, but the individual contribution of each of these mechanisms is not
well understood theoretically. This work proposes an exploration variant of the
basic $Q$-learning protocol with linear function approximation. Our modular
analysis illustrates the role played by each algorithmic tool that we adopt: a
second order update rule, a set of target networks, and a mechanism akin to
experience replay. Together, they enable state of the art regret bounds on
linear MDPs while preserving the most prominent feature of the algorithm,
namely a space complexity independent of the number of step elapsed. We show
that the performance of the algorithm degrades very gracefully under a novel
and more permissive notion of approximation error. The algorithm also exhibits
a form of instance-dependence, in that its performance depends on the
"effective" feature dimension.
- Abstract(参考訳): q$-learningアルゴリズムは強化学習のための単純かつ広く使われる確率近似スキームであるが、基本プロトコルは関数近似と連動して不安定性を示すことができる。
このような不安定性は線形関数近似でも観測できる。
実際には、ターゲットネットワークやエクスペリエンスリプレイといったツールが必要と思われるが、これらのメカニズムの個々の貢献は理論的にはよく分かっていない。
本研究は,線形関数近似を用いた基本的な$q$学習プロトコルの探索型を提案する。
私たちのモジュラー分析では、第2の順序更新ルール、ターゲットネットワークのセット、リプレイを体験するメカニズムといったアルゴリズムツールが果たす役割を例示しています。
同時に、このアルゴリズムの最も顕著な特徴、すなわち、ステップ数に依存しない空間複雑性を保ちながら、線形MDP上のアート後悔境界の状態を可能にする。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
このアルゴリズムはインスタンス依存の形式も示しており、その性能は「効果的な」特徴次元に依存する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Annealing Optimization for Progressive Learning with Stochastic
Approximation [0.0]
計算資源が限られているアプリケーションのニーズを満たすために設計された学習モデルを導入する。
我々は,オンラインな勾配近似アルゴリズムとして定式化されたオンラインプロトタイプベースの学習アルゴリズムを開発した。
学習モデルは、教師なし、教師なし、強化学習に使用される、解釈可能で、徐々に成長する競争的ニューラルネットワークモデルと見なすことができる。
論文 参考訳(メタデータ) (2022-09-06T21:31:01Z) - Learning for Spatial Branching: An Algorithm Selection Approach [0.0]
本研究では,非線形最適化問題の文脈で分岐学習フレームワークを開発し,その有効性を示す。
提案した学習は、インスタンス固有の機能に基づいてオフラインで実行され、新しいインスタンスを解く際の計算オーバーヘッドがない。
異なるベンチマークインスタンスの実験では、学習ベースの分岐ルールが標準ルールを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2022-04-22T17:23:43Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Online Deterministic Annealing for Classification and Clustering [0.0]
本稿では,クラスタリングと分類のためのオンラインプロトタイプベースの学習アルゴリズムを提案する。
本稿では,提案アルゴリズムが競合学習ニューラルネットワークを構成することを示し,その学習規則をオンライン近似アルゴリズムとして定式化する。
論文 参考訳(メタデータ) (2021-02-11T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。