論文の概要: Maximum Likelihood Methods for Inverse Learning of Optimal Controllers
- arxiv url: http://arxiv.org/abs/2005.02767v1
- Date: Wed, 6 May 2020 12:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 06:33:22.205725
- Title: Maximum Likelihood Methods for Inverse Learning of Optimal Controllers
- Title(参考訳): 最適制御器の逆学習における最大度法
- Authors: Marcel Menner, Melanie N. Zeilinger
- Abstract要約: 本稿では,制約付き最適制御問題に対する目的関数の逆学習のためのフレームワークを提案する。
異なるモデル仮定と計算複雑性に対応する3つの変種について論じる。
本研究の主な貢献は,KKT条件と最大推定値を組み合わせた2つの学習手法の提案である。
- 参考スコア(独自算出の注目度): 1.8884278918443569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a framework for inverse learning of objective functions
for constrained optimal control problems, which is based on the
Karush-Kuhn-Tucker (KKT) conditions. We discuss three variants corresponding to
different model assumptions and computational complexities. The first method
uses a convex relaxation of the KKT conditions and serves as the benchmark. The
main contribution of this paper is the proposition of two learning methods that
combine the KKT conditions with maximum likelihood estimation. The key benefit
of this combination is the systematic treatment of constraints for learning
from noisy data with a branch-and-bound algorithm using likelihood arguments.
This paper discusses theoretic properties of the learning methods and presents
simulation results that highlight the advantages of using the maximum
likelihood formulation for learning objective functions.
- Abstract(参考訳): 本稿では,KKT(Karush-Kuhn-Tucker)条件に基づく制約付き最適制御問題に対する目的関数の逆学習フレームワークを提案する。
異なるモデル仮定と計算複雑性に対応する3つの変種について論じる。
最初の方法は、KKT条件の凸緩和を使い、ベンチマークとして機能する。
本論文の主な貢献は,kkt条件と最大確率推定を組み合わせた2つの学習手法の提案である。
この組み合わせの鍵となる利点は、確率引数を用いた分枝境界アルゴリズムによるノイズデータから学習するための制約の体系的処理である。
本稿では,学習手法の理論的性質を考察し,学習対象関数に最大公約式を用いることの利点を強調するシミュレーション結果を示す。
関連論文リスト
- Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。
そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文 参考訳(メタデータ) (2024-09-26T08:46:48Z) - Regularized Projection Matrix Approximation with Applications to Community Detection [1.3761665705201904]
本稿では,アフィニティ行列からクラスタ情報を復元するための正規化プロジェクション行列近似フレームワークを提案する。
3つの異なるペナルティ関数について検討し, それぞれが有界, 正, スパースシナリオに対応するように調整した。
合成および実世界の両方のデータセットで行った数値実験により、我々の正規化射影行列近似アプローチはクラスタリング性能において最先端の手法を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-26T15:18:22Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Adaptive function approximation based on the Discrete Cosine Transform
(DCT) [2.2713084727838115]
本稿では,離散コサイン変換(DCT)の代わりに近似係数を求める教師あり学習について検討する。
余弦基底関数の有限ダイナミクスと勾配性により、正規化リースト平均正方形 (NLMS) のような単純なアルゴリズムはその恩恵を受けることができる。
この論文は、1973年にNasir Ahmed氏によるDCT出版50周年を記念している。
論文 参考訳(メタデータ) (2023-09-01T15:31:26Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Bayesian multi-objective optimization for stochastic simulators: an
extension of the Pareto Active Learning method [0.0]
本稿では,高い出力分散を有するシミュレータの多目的最適化に着目する。
我々はベイズ最適化アルゴリズムを用いて最適化すべき関数の予測を行う。
論文 参考訳(メタデータ) (2022-07-08T11:51:48Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。