論文の概要: Adaptive Decision-Making with Constraints and Dependent Losses:
Performance Guarantees and Applications to Online and Nonlinear
Identification
- arxiv url: http://arxiv.org/abs/2304.03321v1
- Date: Thu, 6 Apr 2023 18:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:57:14.042603
- Title: Adaptive Decision-Making with Constraints and Dependent Losses:
Performance Guarantees and Applications to Online and Nonlinear
Identification
- Title(参考訳): 制約・依存損失を考慮した適応的意思決定:オンライン・非線形同定への性能保証と応用
- Authors: Michael Muehlebach
- Abstract要約: エージェントが有限の選択肢の中から繰り返し選択することで累積性能目標を最適化する適応的意思決定問題を考える。
我々のアルゴリズムと分析はインスタンス依存であり、つまり、環境の最適以下の選択は、我々の後悔の限界に利用され、反映される。
得られたアルゴリズムの性能は2つの数値例で強調される。
- 参考スコア(独自算出の注目度): 5.787117733071415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider adaptive decision-making problems where an agent optimizes a
cumulative performance objective by repeatedly choosing among a finite set of
options. Compared to the classical prediction-with-expert-advice set-up, we
consider situations where losses are constrained and derive algorithms that
exploit the additional structure in optimal and computationally efficient ways.
Our algorithm and our analysis is instance dependent, that is, suboptimal
choices of the environment are exploited and reflected in our regret bounds.
The constraints handle general dependencies between losses (even across time),
and are flexible enough to also account for a loss budget, which the
environment is not allowed to exceed. The performance of the resulting
algorithms is highlighted in two numerical examples, which include a nonlinear
and online system identification task.
- Abstract(参考訳): エージェントが有限の選択肢の中から繰り返し選択することで累積性能目標を最適化する適応的意思決定問題を考える。
従来の予測手法と比較して、損失が制約される状況や、最適かつ計算効率のよい方法で付加構造を利用するアルゴリズムを導出する。
我々のアルゴリズムと分析はインスタンス依存であり、環境の最適以下の選択は、我々の後悔の限界に利用され、反映される。
制約は損失間の一般的な依存関係(時間を超えても)を扱い、環境が超過できない損失予算も考慮できるほど柔軟である。
得られたアルゴリズムの性能は非線形およびオンラインシステム識別タスクを含む2つの数値例で強調される。
関連論文リスト
- End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Do We Really Need to Use Constraint Violation in Constrained
Evolutionary Multi-Objective Optimization? [13.833668582211876]
制約違反は、進化的多目的最適化アルゴリズムを設計するためのビルディングブロックである。
本稿では,制約違反をクリップ値で置き換える,対応する変種を開発する。
実世界および実世界のベンチマークテスト問題に対する実験結果から,選択したアルゴリズムの性能には大きな影響が認められていないことがわかった。
論文 参考訳(メタデータ) (2022-05-28T06:29:07Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Advancing Trajectory Optimization with Approximate Inference:
Exploration, Covariance Control and Adaptive Risk [29.811633555275666]
制御(i2c)アルゴリズムの入力推論を検討し、高度な軌道最適化を可能にする3つの重要な特性を導出する。
非線形システムを最適化する際に、オープンループオプティマとクローズドループ分散低減の利点を組み合わせた専門家の線形ガウスコントローラ。
論文 参考訳(メタデータ) (2021-03-10T19:52:31Z) - A sampling criterion for constrained Bayesian optimization with
uncertainties [0.0]
本稿では,関数を最適化し,制約を満たす確率制約最適化の問題について考察する。
このような問題に対処するために,新しいベイズ最適化法を提案する。
これは、不確実性が入力の一部から生じる状況に適用され、共同制御された制御されていない入力空間における取得基準を定義することができる。
論文 参考訳(メタデータ) (2021-03-09T20:35:56Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。