論文の概要: Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics
- arxiv url: http://arxiv.org/abs/2406.11810v1
- Date: Mon, 17 Jun 2024 17:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:14:13.745199
- Title: Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics
- Title(参考訳): 線形ベルマン完全性下における決定論的ダイナミクスのための計算効率の良いRL
- Authors: Runzhe Wu, Ayush Sekhari, Akshay Krishnamurthy, Wen Sun,
- Abstract要約: 線形ベルマン完全設定に対する計算的および統計的に効率的な強化学習アルゴリズムについて検討する。
この設定では線形関数近似を用いて値関数をキャプチャし、線形マルコフ決定プロセス(MDP)や線形二次レギュレータ(LQR)のような既存のモデルを統一する。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
- 参考スコア(独自算出の注目度): 39.07258580928359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study computationally and statistically efficient Reinforcement Learning algorithms for the linear Bellman Complete setting, a setting that uses linear function approximation to capture value functions and unifies existing models like linear Markov Decision Processes (MDP) and Linear Quadratic Regulators (LQR). While it is known from the prior works that this setting is statistically tractable, it remained open whether a computationally efficient algorithm exists. Our work provides a computationally efficient algorithm for the linear Bellman complete setting that works for MDPs with large action spaces, random initial states, and random rewards but relies on the underlying dynamics to be deterministic. Our approach is based on randomization: we inject random noise into least square regression problems to perform optimistic value iteration. Our key technical contribution is to carefully design the noise to only act in the null space of the training data to ensure optimism while circumventing a subtle error amplification issue.
- Abstract(参考訳): 本稿では,線形ベルマン完全集合に対する線形マルコフ決定過程 (MDP) や線形擬似レギュレータ (LQR) などの既存モデルを統合するために線形関数近似を用いた線形ベルマン完全集合に対する計算的かつ統計的に効率的な強化学習アルゴリズムについて検討する。
この設定が統計的に抽出可能であることは以前の研究から知られているが、計算効率の良いアルゴリズムが存在するかどうかは不明のままである。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
ランダムノイズを最小2乗回帰問題に注入して楽観的な値反復を行う。
私たちの重要な技術的貢献は、トレーニングデータのnullスペースでのみ動作するノイズを慎重に設計し、微妙なエラー増幅問題を回避しつつ、最適化を保証することです。
関連論文リスト
- Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions [29.69428894587431]
ベルマンが成り立つと仮定し、これらの回帰問題が十分に特定されていることを保証している。
数作用が定数であるとき、線形ベルマンの下でRLの最初の特別なアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-06-17T15:24:49Z) - Nonlinear Multi-objective Reinforcement Learning with Provable
Guarantees [1.6160052850279416]
RA-E3は、単目的または多目的決定プロセス(MDP)を解決するための証明可能な保証を持つアルゴリズムである
RA-E3は、スカラー報酬と線形選好でMDPを解決する古典的なE3アルゴリズムを拡張している。
論文 参考訳(メタデータ) (2023-11-05T02:11:07Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Sparse Bayesian Learning via Stepwise Regression [1.2691047660244335]
我々は、RMP(Relevance Matching Pursuit)と呼ばれるSBLのための座標加算アルゴリズムを提案する。
ノイズ分散パラメータがゼロになるにつれて、RMPはステップワイド回帰と驚くべき関係を示す。
ステップワイド回帰アルゴリズムの新たな保証を導き、RMPにも光を当てる。
論文 参考訳(メタデータ) (2021-06-11T00:20:27Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。