論文の概要: Maximum Likelihood Constraint Inference from Stochastic Demonstrations
- arxiv url: http://arxiv.org/abs/2102.12554v1
- Date: Wed, 24 Feb 2021 20:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-27 00:46:24.517336
- Title: Maximum Likelihood Constraint Inference from Stochastic Demonstrations
- Title(参考訳): 確率的実演による最大度制約推論
- Authors: David L. McPherson, Kaylene C. Stocking, S. Shankar Sastry
- Abstract要約: 本稿では,最大因果エントロピー推定を用いて,最大確率制約推論を応用に拡張する。
本稿では,ベルマンバックアップにおける制約可能性とリスク許容性を計算するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.254702845143088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When an expert operates a perilous dynamic system, ideal constraint
information is tacitly contained in their demonstrated trajectories and
controls. The likelihood of these demonstrations can be computed, given the
system dynamics and task objective, and the maximum likelihood constraints can
be identified. Prior constraint inference work has focused mainly on
deterministic models. Stochastic models, however, can capture the uncertainty
and risk tolerance that are often present in real systems of interest.
This paper extends maximum likelihood constraint inference to stochastic
applications by using maximum causal entropy likelihoods. Furthermore, we
propose an efficient algorithm that computes constraint likelihood and risk
tolerance in a unified Bellman backup, allowing us to generalize to stochastic
systems without increasing computational complexity.
- Abstract(参考訳): 専門家が危険な動的システムを操作すると、実証された軌道と制御に理想的な制約情報が暗黙に含まれる。
システムのダイナミクスとタスクの目的を考えると、これらのデモンストレーションの可能性を計算でき、最大可能性の制約を特定できる。
事前の制約推論は主に決定論的モデルに焦点が当てられている。
しかし確率モデルは、実際の関心のシステムでしばしば見られる不確実性とリスク許容性を捉えることができる。
本稿では,最大因果エントロピー確率を用いて,確率的応用に対する最大極限制約推定を拡張する。
さらに,統合されたベルマンバックアップにおける制約可能性とリスク耐性を計算し,計算複雑性を増大させることなく確率系に一般化するアルゴリズムを提案する。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Probabilistic Flux Limiters [0.873811641236639]
未解決シミュレーションにおけるギブス振動を事実上排除する一般的な方法は、フラックスリミッターを使用することである。
本稿では,モデルにおけるランダム性の効果を扱うために設計された,概念的に異なるタイプのフラックスリミッタを提案する。
確率的フラックスリミッタを学習した機械が、より正確に衝撃プロファイルをキャプチャするために、ショックキャプチャコードに使用できることを示す。
論文 参考訳(メタデータ) (2024-05-13T21:06:53Z) - Correct-by-Construction Control for Stochastic and Uncertain Dynamical
Models via Formal Abstractions [44.99833362998488]
我々は、様々なモデリングの前提の下でこの問題を解決するために使用できる抽象フレームワークを開発する。
我々は、与えられた仕様を満たすための保証とともに、iMDPの最適ポリシーを計算するために最先端の検証技術を使用します。
そして、このポリシーを構築によって、これらの保証が動的モデルに受け継がれるフィードバックコントローラに改良できることを示します。
論文 参考訳(メタデータ) (2023-11-16T11:03:54Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Probabilistic Exponential Integrators [36.98314810594263]
標準的な解法と同様に、一定の厳格なシステムに対してパフォーマンス上のペナルティを被る。
本稿では,確率的指数的解法を好適な性質を持つクラスで開発する。
多重微分方程式における提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-05-24T10:13:13Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Recursive Constraints to Prevent Instability in Constrained
Reinforcement Learning [16.019477271828745]
マルコフ決定プロセスにおける決定論的政策の発見という課題を考察する。
この種の問題は難しいことが知られているが、決定論と一様最適性の要求が組み合わされば、学習不安定が生じる。
本稿では,学習不安定性を防止するための制約付き強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-20T02:33:24Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Learning Control Barrier Functions from Expert Demonstrations [69.23675822701357]
制御障壁関数(CBF)に基づく安全な制御器合成のための学習に基づくアプローチを提案する。
最適化に基づくCBFの学習手法を解析し、基礎となる力学系のリプシッツ仮定の下で証明可能な安全保証を享受する。
私たちの知る限りでは、これらはデータから確実に安全な制御障壁関数を学習する最初の結果です。
論文 参考訳(メタデータ) (2020-04-07T12:29:06Z) - Incorporating physical constraints in a deep probabilistic machine
learning framework for coarse-graining dynamical systems [7.6146285961466]
本稿では,予測の不確実性の定量化を可能にする,データに基づく確率論的視点を提供する。
確率的状態空間モデルを用いて粗粒化過程を定式化する。
完全な微細なシステムの進化を再構築することができる。
論文 参考訳(メタデータ) (2019-12-30T16:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。