論文の概要: Finite-sample Guarantees for Nash Q-learning with Linear Function
Approximation
- arxiv url: http://arxiv.org/abs/2303.00177v1
- Date: Wed, 1 Mar 2023 02:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 16:19:08.175330
- Title: Finite-sample Guarantees for Nash Q-learning with Linear Function
Approximation
- Title(参考訳): 線形関数近似を用いたnash q-learningの有限サンプル保証
- Authors: Pedro Cisneros-Velarde, Sanmi Koyejo
- Abstract要約: ナッシュQ学習は、マルチエージェント強化学習において、最もよく知られたアルゴリズムの1つであると考えられる。
線形関数近似を用いたナッシュQ-ラーニングの解析を行った。
- 参考スコア(独自算出の注目度): 13.284065705459387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nash Q-learning may be considered one of the first and most known algorithms
in multi-agent reinforcement learning (MARL) for learning policies that
constitute a Nash equilibrium of an underlying general-sum Markov game. Its
original proof provided asymptotic guarantees and was for the tabular case.
Recently, finite-sample guarantees have been provided using more modern RL
techniques for the tabular case. Our work analyzes Nash Q-learning using linear
function approximation -- a representation regime introduced when the state
space is large or continuous -- and provides finite-sample guarantees that
indicate its sample efficiency. We find that the obtained performance nearly
matches an existing efficient result for single-agent RL under the same
representation and has a polynomial gap when compared to the best-known result
for the tabular case.
- Abstract(参考訳): ナッシュQ-ラーニングは、マルチエージェント強化学習(MARL)において、基礎となる汎用マルコフゲームのナッシュ均衡を構成する学習ポリシーにおいて、最もよく知られたアルゴリズムの1つである。
元々の証明は漸近的な保証を提供し、表の場合であった。
近年, 有限サンプル保証は, より現代的なRL技術を用いて実現されている。
我々の研究は、線形関数近似(状態空間が大きくあるいは連続的に導入された表現体系)を用いてナッシュQ学習を分析し、そのサンプル効率を示す有限サンプル保証を提供する。
得られた性能は,同一表現下での単一エージェント rl に対する既存の効率的な結果とほぼ一致し,表式の場合の最もよく知られた結果と比較して多項式ギャップを有することがわかった。
関連論文リスト
- Stochastic Approximation with Unbounded Markovian Noise: A General-Purpose Theorem [7.443139252028032]
非有界な状態空間と報酬関数を持つ平均逆強化学習を考える。
近年の研究では、この問題をアクター批判の枠組みで研究している。
線形関数近似を用いた時間差分学習(TD)について検討した。
論文 参考訳(メタデータ) (2024-10-29T03:40:53Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Online Statistical Inference for Nonlinear Stochastic Approximation with
Markovian Data [22.59079286063505]
マルコフデータの単一軌跡を用いた非線形近似アルゴリズムの統計的推定について検討した。
本手法は,自動回帰データや非同期Q-Learningにおけるグラディエント・Descent (SGD) など,様々なシナリオで実用化されている。
論文 参考訳(メタデータ) (2023-02-15T14:31:11Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Momentum Q-learning with Finite-Sample Convergence Guarantee [49.38471009162477]
本稿では,有限サンプル保証を用いたモーメントに基づくQ-ラーニングアルゴリズムのクラスを解析する。
線形関数近似とマルコフサンプリングによるMomentumQの収束保証を確立する。
提案したMomentumQが他のモーメントベースのQ-ラーニングアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2020-07-30T12:27:03Z) - Formal Synthesis of Lyapunov Neural Networks [61.79595926825511]
本稿では,リアプノフ関数の自動合成法を提案する。
我々は,数値学習者と記号検証器が相互作用して,確実に正しいリアプノフニューラルネットワークを構築する,反例誘導方式を採用する。
提案手法は,Lyapunov関数を他の手法よりも高速かつ広い空間領域で合成する。
論文 参考訳(メタデータ) (2020-03-19T17:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。