論文の概要: Online Learning with Unknown Constraints
- arxiv url: http://arxiv.org/abs/2403.04033v1
- Date: Wed, 6 Mar 2024 20:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:51:40.945944
- Title: Online Learning with Unknown Constraints
- Title(参考訳): 未知制約によるオンライン学習
- Authors: Karthik Sridharan and Seung Won Wilson Yoo
- Abstract要約: 本稿では,学習者が行う行動の順序が,各ラウンドにおいて未知の安全制約に従わなければならないというオンライン学習の問題点を考察する。
目的は、各ラウンドの安全制約を高い確率で満たしながら、後ろ向きのベストセーフアクションに対する後悔を最小限に抑えることである。
- 参考スコア(独自算出の注目度): 10.263431543520452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of online learning where the sequence of actions
played by the learner must adhere to an unknown safety constraint at every
round. The goal is to minimize regret with respect to the best safe action in
hindsight while simultaneously satisfying the safety constraint with high
probability on each round. We provide a general meta-algorithm that leverages
an online regression oracle to estimate the unknown safety constraint, and
converts the predictions of an online learning oracle to predictions that
adhere to the unknown safety constraint. On the theoretical side, our
algorithm's regret can be bounded by the regret of the online regression and
online learning oracles, the eluder dimension of the model class containing the
unknown safety constraint, and a novel complexity measure that captures the
difficulty of safe learning. We complement our result with an asymptotic lower
bound that shows that the aforementioned complexity measure is necessary. When
the constraints are linear, we instantiate our result to provide a concrete
algorithm with $\sqrt{T}$ regret using a scaling transformation that balances
optimistic exploration with pessimistic constraint satisfaction.
- Abstract(参考訳): 我々は、学習者が行う行動のシーケンスが、各ラウンドごとに未知の安全制約に従わなければならないオンライン学習の問題を考える。
目的は、各ラウンドの安全制約を高い確率で満たしながら、後ろ向きのベストセーフアクションに対する後悔を最小限に抑えることである。
我々は、オンライン回帰オラクルを利用して未知の安全制約を推定し、オンライン学習オラクルの予測を未知の安全制約に準拠した予測に変換する一般的なメタアルゴリズムを提供する。
理論的には、我々のアルゴリズムの後悔は、オンライン回帰とオンライン学習のオラクルの後悔、未知の安全制約を含むモデルクラスのエリューダー次元、そして安全な学習の難しさを捉える新しい複雑さ尺度によって制限される。
我々は,上述の複雑性尺度が必要であることを示す漸近的下界でこの結果を補完する。
制約が線形であれば、悲観的な探索と悲観的な制約満足度をバランスさせるスケーリング変換を用いて、$\sqrt{T}$ regretの具体的なアルゴリズムを提供する。
関連論文リスト
- LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - High-Probability Risk Bounds via Sequential Predictors [20.741036493022442]
一般的なオンライン学習アルゴリズムに適用されたオンラインからバッチへの変換は、後悔の限界を回避できることを示す。
いくつかの古典的統計的推定問題に対して、ほぼ最適な高確率リスク境界を得る。
我々の分析は、多くのオンライン学習アルゴリズムが不適切であるという事実に依存している。
論文 参考訳(メタデータ) (2023-08-15T06:19:31Z) - Optimal Learners for Realizable Regression: PAC Learning and Online Learning [52.37726841759983]
本研究では,PAC学習環境とオンライン学習環境の両方において,実現可能な回帰の統計的複雑さを特徴付けることを目的とする。
まず,再現可能な回帰のためのミニマックスインスタンス最適学習器を導入し,実数値予測器のどのクラスが学習可能であるかを質的かつ定量的に特徴付ける新しい次元を提案する。
オンライン学習の文脈では、最小の最適インスタンス最適累積損失を一定要素まで特徴付ける次元を提供し、再現可能な回帰のための最適オンライン学習者を設計する。
論文 参考訳(メタデータ) (2023-07-07T21:39:25Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Active Learning with Safety Constraints [25.258564629480063]
対話型環境における安全な判断を学習することの複雑さについて検討する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
論文 参考訳(メタデータ) (2022-06-22T15:45:38Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Safe Online Convex Optimization with Unknown Linear Safety Constraints [0.0]
安全なオンライン凸最適化の問題について検討し、各ステップの動作は一連の線形安全制約を満たす必要がある。
線形安全性制約を指定するパラメータはアルゴリズムでは未知である。
安全なベースライン動作が可能であるという仮定の下で、SO-PGDアルゴリズムは、後悔する$O(T2/3)$を達成していることを示す。
論文 参考訳(メタデータ) (2021-11-14T19:49:19Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。