論文の概要: Lyapunov Density Models: Constraining Distribution Shift in
Learning-Based Control
- arxiv url: http://arxiv.org/abs/2206.10524v1
- Date: Tue, 21 Jun 2022 16:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 20:29:09.605910
- Title: Lyapunov Density Models: Constraining Distribution Shift in
Learning-Based Control
- Title(参考訳): リアプノフ密度モデル:学習制御における分布シフトの抑制
- Authors: Katie Kang, Paula Gradu, Jason Choi, Michael Janner, Claire Tomlin,
Sergey Levine
- Abstract要約: 我々はエージェントを訓練された状態や行動に制約するメカニズムを模索する。
制御理論において、リャプノフ安定性と制御不変集合は、コントローラについて保証することを可能にする。
密度モデルによって トレーニングデータの分布を推定できます
- 参考スコア(独自算出の注目度): 64.61499213110334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned models and policies can generalize effectively when evaluated within
the distribution of the training data, but can produce unpredictable and
erroneous outputs on out-of-distribution inputs. In order to avoid distribution
shift when deploying learning-based control algorithms, we seek a mechanism to
constrain the agent to states and actions that resemble those that it was
trained on. In control theory, Lyapunov stability and control-invariant sets
allow us to make guarantees about controllers that stabilize the system around
specific states, while in machine learning, density models allow us to estimate
the training data distribution. Can we combine these two concepts, producing
learning-based control algorithms that constrain the system to in-distribution
states using only in-distribution actions? In this work, we propose to do this
by combining concepts from Lyapunov stability and density estimation,
introducing Lyapunov density models: a generalization of control Lyapunov
functions and density models that provides guarantees on an agent's ability to
stay in-distribution over its entire trajectory.
- Abstract(参考訳): 学習されたモデルとポリシーは、トレーニングデータの分布内で評価された場合、効果的に一般化することができるが、分布外入力に対して予測不能で誤った出力を生成することができる。
学習に基づく制御アルゴリズムをデプロイする際の分散シフトを回避するため,エージェントを訓練対象と類似した状態や動作に拘束する機構を模索する。
制御理論では、リャプノフ安定性と制御不変集合により、特定の状態の周囲でシステムを安定させるコントローラが保証される一方で、機械学習では、密度モデルによりトレーニングデータ分布を推定することができる。
これら2つの概念を組み合わせることで、分散アクションのみを使用して、システムを分散状態に制約する学習ベースの制御アルゴリズムを生成することができるか?
本研究では,lyapunov の安定性と密度推定の概念を組み合わせることで,lyapunov の密度モデルを導入することを提案する。
関連論文リスト
- Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Distributionally Robust Policy and Lyapunov-Certificate Learning [13.38077406934971]
不確実なシステムに対する安定性を保証するコントローラの設計における重要な課題は、オンラインデプロイメント中のモデルパラメトリック不確実性の変化の正確な決定と適応である。
我々は、リアプノフ証明書の単調な減少を保証するために、リアプノフ微分チャンス制約を分布的に頑健に定式化することで、この問題に取り組む。
得られた閉ループシステムに対して、その平衡のグローバルな安定性は、アウト・オブ・ディストリビューションの不確実性があっても高い信頼性で証明できることを示す。
論文 参考訳(メタデータ) (2024-04-03T18:57:54Z) - Decentralized Event-Triggered Online Learning for Safe Consensus of
Multi-Agent Systems with Gaussian Process Regression [3.405252606286664]
本稿では,補助力学によって強化された,学習に基づく分散制御法を提案する。
予測性能を継続的に向上するために、分散イベントトリガー機構を備えたデータ効率の高いオンライン学習戦略を提案する。
提案手法の有効性を示すため,従来の分散制御法とオフライン学習法を対比して比較分析を行った。
論文 参考訳(メタデータ) (2024-02-05T16:41:17Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z) - A Coupled Flow Approach to Imitation Learning [24.024918837659474]
強化学習と模倣学習では、政策によって引き起こされる状態分布が重要視される。
本研究では,上述の分布に対する正規化フローベースモデルの適用について検討する。
提案アルゴリズムであるCFIL(Coupled Flow Learning)は,ベンチマークタスクにおける最先端のパフォーマンスを1つの専門家軌道で達成する。
論文 参考訳(メタデータ) (2023-04-29T17:10:17Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Neural Lyapunov Differentiable Predictive Control [2.042924346801313]
本稿では、確率的リアプノフに基づく安定性保証を備えた微分可能なプログラミングフレームワークを用いた学習に基づく予測制御手法を提案する。
この手法は、安定な力学で状態空間の領域を認証するリアプノフ関数を共同で学習する。
論文 参考訳(メタデータ) (2022-05-22T03:52:27Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。