論文の概要: Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations
- arxiv url: http://arxiv.org/abs/2112.14004v1
- Date: Tue, 28 Dec 2021 05:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-31 05:44:11.168632
- Title: Efficient Performance Bounds for Primal-Dual Reinforcement Learning from
Demonstrations
- Title(参考訳): 実演による初等二次強化学習のための効率的性能境界
- Authors: Angeliki Kamoutsi, Goran Banjac, and John Lygeros
- Abstract要約: 本稿では,コスト関数の不明な大規模マルコフ決定プロセスについて考察し,限られた専門家による実証から政策を学習する問題に対処する。
既存の逆強化学習法には強力な理論的保証があるが、計算上は高価である。
ラグランジアン双対性を利用して理論と実践のギャップを埋める新しい双線型サドルポイントフレームワークを導入する。
- 参考スコア(独自算出の注目度): 1.0609815608017066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider large-scale Markov decision processes with an unknown cost
function and address the problem of learning a policy from a finite set of
expert demonstrations. We assume that the learner is not allowed to interact
with the expert and has no access to reinforcement signal of any kind. Existing
inverse reinforcement learning methods come with strong theoretical guarantees,
but are computationally expensive, while state-of-the-art policy optimization
algorithms achieve significant empirical success, but are hampered by limited
theoretical understanding. To bridge the gap between theory and practice, we
introduce a novel bilinear saddle-point framework using Lagrangian duality. The
proposed primal-dual viewpoint allows us to develop a model-free provably
efficient algorithm through the lens of stochastic convex optimization. The
method enjoys the advantages of simplicity of implementation, low memory
requirements, and computational and sample complexities independent of the
number of states. We further present an equivalent no-regret online-learning
interpretation.
- Abstract(参考訳): 我々は,未知のコスト関数を持つ大規模マルコフ決定過程を考察し,有限個の専門家による実証から方針を学ぶ問題に対処する。
学習者は専門家と対話することは許されず、いかなる種類の強化信号にもアクセスできないと仮定する。
既存の逆強化学習法には強い理論的保証があるが、計算コストが高いが、最先端のポリシー最適化アルゴリズムは実証的な成功をもたらすが、理論的な理解が限られている。
理論と実践のギャップを埋めるため,ラグランジアン双対性を用いた新しい双線型saddle-pointフレームワークを提案する。
提案手法により,確率凸最適化のレンズを用いて,モデルフリーで証明可能なアルゴリズムを開発できる。
この手法は、実装の単純さ、低メモリ要求、および状態数に依存しない計算とサンプルの複雑さの利点を享受する。
さらに、等価なオンライン学習解釈を提示する。
関連論文リスト
- Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - Efficient Alternating Minimization Solvers for Wyner Multi-View
Unsupervised Learning [0.0]
本稿では,計算効率のよい解法の開発を可能にする2つの新しい定式化法を提案する。
提案した解法は, 計算効率, 理論的収束保証, ビュー数による局所最小値複雑性, 最先端技術と比較して, 例外的な精度を提供する。
論文 参考訳(メタデータ) (2023-03-28T10:17:51Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Learning Implicitly with Noisy Data in Linear Arithmetic [94.66549436482306]
PAC-セマンティックスにおける暗黙学習を拡張し、線形算術の言語における間隔としきい値の不確実性を扱う。
最適線形プログラミング対象制約の学習に対する我々の暗黙的アプローチは、実際的な明示的アプローチよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-10-23T19:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。