論文の概要: Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States
- arxiv url: http://arxiv.org/abs/2402.07875v2
- Date: Sat, 1 Jun 2024 18:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 18:53:33.864748
- Title: Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States
- Title(参考訳): 線形二次制御における政策グラディエントの不必要バイアス:初期状態に対する外挿
- Authors: Noam Razin, Yotam Alexander, Edo Cohen-Karlik, Raja Giryes, Amir Globerson, Nadav Cohen,
- Abstract要約: 勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
- 参考スコア(独自算出の注目度): 52.56827348431552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern machine learning, models can often fit training data in numerous ways, some of which perform well on unseen (test) data, while others do not. Remarkably, in such cases gradient descent frequently exhibits an implicit bias that leads to excellent performance on unseen data. This implicit bias was extensively studied in supervised learning, but is far less understood in optimal control (reinforcement learning). There, learning a controller applied to a system via gradient descent is known as policy gradient, and a question of prime importance is the extent to which a learned controller extrapolates to unseen initial states. This paper theoretically studies the implicit bias of policy gradient in terms of extrapolation to unseen initial states. Focusing on the fundamental Linear Quadratic Regulator (LQR) problem, we establish that the extent of extrapolation depends on the degree of exploration induced by the system when commencing from initial states included in training. Experiments corroborate our theory, and demonstrate its conclusions on problems beyond LQR, where systems are non-linear and controllers are neural networks. We hypothesize that real-world optimal control may be greatly improved by developing methods for informed selection of initial states to train on.
- Abstract(参考訳): 現代の機械学習では、モデルは様々な方法でトレーニングデータに適合することが多く、そのうちのいくつかは目に見えない(テスト)データでうまく機能する。
このような場合、勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
この暗黙のバイアスは教師あり学習において広く研究されたが、最適制御(強化学習)では理解されていない。
そこで、勾配降下によるシステムに適用された制御器の学習はポリシー勾配と呼ばれ、学習した制御器が未知の初期状態に外挿する程度が重要な問題である。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
基本線形二次レギュレータ (LQR) 問題に着目し, トレーニングに含まれた初期状態から考えると, システムによって誘導される探索の程度によって外挿の程度が決まることを確かめる。
実験は我々の理論を裏付け、システムが非線形でコントローラがニューラルネットワークであるLQRを超えた問題に関する結論を示す。
実世界の最適制御は、トレーニングする初期状態の情報選択方法を開発することにより、大幅に改善される可能性があると仮定する。
関連論文リスト
- Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Deep active learning for nonlinear system identification [0.4485566425014746]
我々は非線形システム同定のための新しい深層能動学習手法を開発した。
グローバル探索は、最も情報に富む状態-行動軌道に対応する初期状態のバッチを取得する。
局所的な探索は最適な制御問題を解き、情報の測度を最大化する制御軌道を見つける。
論文 参考訳(メタデータ) (2023-02-24T14:46:36Z) - Physics-Informed Kernel Embeddings: Integrating Prior System Knowledge
with Data-Driven Control [22.549914935697366]
カーネル埋め込みを用いたデータ駆動制御アルゴリズムに事前知識を組み込む手法を提案する。
提案手法は,カーネル学習問題におけるバイアス項として,システムダイナミクスの事前知識を取り入れたものである。
純粋にデータ駆動ベースライン上でのサンプル効率の向上と,我々のアプローチのアウト・オブ・サンプル一般化を実証する。
論文 参考訳(メタデータ) (2023-01-09T18:35:32Z) - Testing Stationarity and Change Point Detection in Reinforcement
Learning [10.343546104340962]
予め収集した履歴データに基づいて最適なQ-関数の非定常性をテストする一貫した手順を開発する。
さらに、非定常環境における政策最適化のための既存の最先端RL手法と自然に結合可能な逐次変化点検出法を開発した。
論文 参考訳(メタデータ) (2022-03-03T13:30:28Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z) - Uncovering the Underlying Physics of Degrading System Behavior Through a
Deep Neural Network Framework: The Case of Remaining Useful Life Prognosis [0.0]
本稿では、ディープニューラルネットワークフレームワークを用いて、劣化の物理を探索するオープンボックスアプローチを提案する。
フレームワークには3つのステージがあり、システムの状態を表す潜伏変数と対応するPDEを見つけることを目的としている。
論文 参考訳(メタデータ) (2020-06-10T21:05:59Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。