論文の概要: Scale Invariant Solutions for Overdetermined Linear Systems with
Applications to Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.07361v1
- Date: Thu, 15 Apr 2021 10:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 00:13:01.083619
- Title: Scale Invariant Solutions for Overdetermined Linear Systems with
Applications to Reinforcement Learning
- Title(参考訳): 過決定線形システムのスケール不変解と強化学習への応用
- Authors: Rahul Madhavan, Gugan Thoppe, Hemanta Makwana
- Abstract要約: そこで, 数値関数推定のための2つの新しいアルゴリズムの開発に用いる, スケール不変な基準を提案する。
また、この作業以外でも有用かもしれない、新しい適応的なステップサイズも導入します。
- 参考スコア(独自算出の注目度): 3.093890460224435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overdetermined linear systems are common in reinforcement learning, e.g., in
Q and value function estimation with function approximation. The standard
least-squares criterion, however, leads to a solution that is unduly influenced
by rows with large norms. This is a serious issue, especially when the matrices
in these systems are beyond user control. To address this, we propose a
scale-invariant criterion that we then use to develop two novel algorithms for
value function estimation: Normalized Monte Carlo and Normalized TD(0).
Separately, we also introduce a novel adaptive stepsize that may be useful
beyond this work as well. We use simulations and theoretical guarantees to
demonstrate the efficacy of our ideas.
- Abstract(参考訳): 過剰決定線形系は強化学習(例えばQ)や関数近似による値関数推定において一般的である。
しかし、標準の最小二乗基準は、大きなノルムを持つ行によって不規則に影響を受ける解をもたらす。
これは深刻な問題であり、特にこれらのシステムの行列がユーザ制御を超えている場合である。
そこで我々は,値関数推定のための2つの新しいアルゴリズム,正規化モンテカルロ法と正規化td(0)法を提案する。
また,本研究以外でも有用かもしれない適応的なステップサイズも導入する。
シミュレーションと理論的保証を用いて、アイデアの有効性を実証する。
関連論文リスト
- Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators [13.343937277604892]
エルゴード線形二次規制器における不確実性と不均一性を扱うためにメタラーニングを用いることの問題点について検討する。
本稿では,不均一だが類似の線形力学系を学習するタスクに適用可能なポリシヘシアンの推定を省略するアルゴリズムを提案する。
メタオブジェクトの勾配の有界性と滑らかさを解析することにより、正確な勾配降下過程の収束結果を提供する。
論文 参考訳(メタデータ) (2024-05-27T17:26:36Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Dynamic selection of p-norm in linear adaptive filtering via online
kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。
オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文 参考訳(メタデータ) (2022-10-20T14:49:39Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Sparse Methods for Automatic Relevance Determination [0.0]
まず、自動妥当性決定(ARD)について検討し、スパースモデルを実現するために、追加の正規化やしきい値設定の必要性を解析的に実証する。
次に、正規化ベースとしきい値ベースという2つの手法のクラスについて論じる。
論文 参考訳(メタデータ) (2020-05-18T14:08:49Z) - Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning [41.24484153212002]
本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
論文 参考訳(メタデータ) (2020-04-06T15:50:31Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Robust-Adaptive Control of Linear Systems: beyond Quadratic Costs [14.309243378538012]
線形システムのロバストかつ適応的なモデル予測制御(MPC)の問題を考える。
この設定に対して、最初のエンドツーエンドのサブ最適トラクティリティ解析を提供する。
論文 参考訳(メタデータ) (2020-02-25T12:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。