論文の概要: PAC Learnability of Scenario Decision-Making Algorithms: Necessary and Sufficient Conditions
- arxiv url: http://arxiv.org/abs/2501.08887v1
- Date: Wed, 15 Jan 2025 15:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:27.318901
- Title: PAC Learnability of Scenario Decision-Making Algorithms: Necessary and Sufficient Conditions
- Title(参考訳): シナリオ意思決定アルゴリズムのPAC学習可能性:必要条件と十分条件
- Authors: Guillaume O. Berger, Raphaël M. Jungers,
- Abstract要約: PACは、未知の安全制約に違反するリスクが任意に低い決定を下す能力である。
シナリオ決定アルゴリズムがPACとなるための十分な条件が文献で提供されている。
シナリオ決定アルゴリズムに必要な条件は,VC次元といわゆるフリーランチ定理にインスパイアされたPACである。
- 参考スコア(独自算出の注目度): 0.7673339435080445
- License:
- Abstract: We study the PAC property of scenario decision-making algorithms, that is, the ability to make a decision that has an arbitrarily low risk of violating an unknown safety constraint, provided sufficiently many realizations (called scenarios) of the safety constraint are sampled. Sufficient conditions for scenario decision-making algorithms to be PAC are available in the literature, such as finiteness of the VC dimension of its associated classifier and existence of a compression scheme. We study the question of whether these sufficient conditions are also necessary. We show with counterexamples that this is not the case in general. This contrasts with binary classification learning, for which the analogous conditions are sufficient and necessary. Popular scenario decision-making algorithms, such as scenario optimization, enjoy additional properties, such as stability and consistency. We show that even under these additional assumptions the above conclusions hold. Finally, we derive a necessary condition for scenario decision-making algorithms to be PAC, inspired by the VC dimension and the so-called no-free-lunch theorem.
- Abstract(参考訳): シナリオ決定アルゴリズムのPAC特性、すなわち、未知の安全制約に違反するリスクが任意に低い決定を行う能力について検討し、安全制約の十分な多くの実現(シナリオと呼ばれる)をサンプリングする。
シナリオ決定アルゴリズムがPACとなるための十分条件は、関連する分類器のVC次元の有限性や圧縮スキームの存在といった文献で利用できる。
これらの条件も必要かどうかを考察する。
これは一般的にはそうではないことを反例で示します。
これは、類似条件が十分かつ必要である二分分類学習とは対照的である。
シナリオ最適化のような一般的なシナリオ決定アルゴリズムは、安定性や一貫性といった付加的な特性を享受する。
これらの仮定の下でも、上記の結論は成り立つ。
最後に、VC次元といわゆるフリーランチ定理にインスパイアされたシナリオ決定アルゴリズムがPACとなるために必要な条件を導出する。
関連論文リスト
- Flipping-based Policy for Chance-Constrained Markov Decision Processes [9.404184937255694]
本稿では,CCMDP(Chance-Constrained Markov Decision Processs)のためのテキストフリップに基づくポリシーを提案する。
フリップベースのポリシーは、2つのアクション候補の間で潜在的に歪んだコインを投げて次のアクションを選択する。
提案手法は,既存の安全RLアルゴリズムの性能を安全性の制約と同じ限度で向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:39Z) - Algorithms for learning value-aligned policies considering admissibility relaxation [1.8336820954218835]
価値認識工学の新たな分野は、ソフトウェアエージェントとシステムは価値を意識すべきである、と主張している。
本稿では,局所的なアライメントに基づく戦略のための$epsilontext-ADQL$と,一連の決定のための$epsilontext-CADQL$という2つのアルゴリズムを提案する。
干ばつシナリオにおいて,水分散問題における効率性を検証した。
論文 参考訳(メタデータ) (2024-06-07T11:10:07Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Stochastic Conservative Contextual Linear Bandits [8.684768561839146]
不確実性の下での安全なリアルタイム意思決定の問題について検討する。
我々は、リアルタイム意思決定のための保守的な文脈的帯域幅の定式化を定式化する。
論文 参考訳(メタデータ) (2022-03-29T14:50:50Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。