論文の概要: Online learning with dynamics: A minimax perspective
- arxiv url: http://arxiv.org/abs/2012.01705v1
- Date: Thu, 3 Dec 2020 05:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:09:17.254766
- Title: Online learning with dynamics: A minimax perspective
- Title(参考訳): dynamicsによるオンライン学習:minimaxパースペクティブ
- Authors: Kush Bhatia, Karthik Sridharan
- Abstract要約: 本研究では,学習者が複数のラウンドでステートフルな環境と対話する,ダイナミックスを用いたオンライン学習の課題について検討する。
本研究の主な成果は,オンライン学習に十分な条件を提供することである。
- 参考スコア(独自算出の注目度): 25.427783092065546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online learning with dynamics, where a learner
interacts with a stateful environment over multiple rounds. In each round of
the interaction, the learner selects a policy to deploy and incurs a cost that
depends on both the chosen policy and current state of the world. The
state-evolution dynamics and the costs are allowed to be time-varying, in a
possibly adversarial way. In this setting, we study the problem of minimizing
policy regret and provide non-constructive upper bounds on the minimax rate for
the problem.
Our main results provide sufficient conditions for online learnability for
this setup with corresponding rates. The rates are characterized by 1) a
complexity term capturing the expressiveness of the underlying policy class
under the dynamics of state change, and 2) a dynamics stability term measuring
the deviation of the instantaneous loss from a certain counterfactual loss.
Further, we provide matching lower bounds which show that both the complexity
terms are indeed necessary.
Our approach provides a unifying analysis that recovers regret bounds for
several well studied problems including online learning with memory, online
control of linear quadratic regulators, online Markov decision processes, and
tracking adversarial targets. In addition, we show how our tools help obtain
tight regret bounds for a new problems (with non-linear dynamics and non-convex
losses) for which such bounds were not known prior to our work.
- Abstract(参考訳): 本研究では,複数ラウンドにわたって学習者がステートフルな環境と対話するダイナミクスを用いたオンライン学習の課題について検討する。
インタラクションの各ラウンドで、学習者は、選択されたポリシーと世界の現在の状態の両方に依存するコストを発生させるポリシーを選択します。
状態進化のダイナミクスとコストは、おそらく敵対的な方法で、時間変化が許される。
本稿では,政策後悔の最小化の問題について検討し,その問題に対するミニマックスレートの非建設的上限を与える。
本研究の主な成果は,オンライン学習能力に十分な条件を提供することである。
このレートは,1)状態変化のダイナミクスの下で,基礎となる政策クラスの表現性を捉える複雑性項と,2)ある対物的損失からの即時損失の偏差を測定する動的安定項とを特徴とする。
さらに、両方の複雑性項が本当に必要であることを示す、一致する下限を提供する。
提案手法は,メモリを用いたオンライン学習,線形二次規制のオンライン制御,オンラインマルコフ決定プロセス,敵対的目標の追跡など,よく研究されている問題に対する後悔を回復する一元的分析を提供する。
さらに,新たな問題(非線形ダイナミクスと非凸損失)に対する厳密な後悔の限界を得る上で,我々のツールがどのように役立つかを示す。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Reinforcement Learning Policies in Continuous-Time Linear Systems [0.0]
パラメータ推定を慎重にランダムにすることで、最適行動の学習を迅速に行うオンラインポリシーを提案する。
非接触系の力学に対する鋭い安定性を証明し、準最適動作による無限小の後悔を厳密に特定する。
我々の分析は、継続的強化学習における基本的な課題に光を当て、同様の問題に対する有用な基礎となることを示唆している。
論文 参考訳(メタデータ) (2021-09-16T00:08:50Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。