論文の概要: Constrained Online Two-stage Stochastic Optimization: New Algorithms via
Adversarial Learning
- arxiv url: http://arxiv.org/abs/2302.00997v1
- Date: Thu, 2 Feb 2023 10:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:30:57.049099
- Title: Constrained Online Two-stage Stochastic Optimization: New Algorithms via
Adversarial Learning
- Title(参考訳): Constrained Online Two-stage Stochastic Optimization: Adversarial Learningによる新しいアルゴリズム
- Authors: Jiashuo Jiang
- Abstract要約: 有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
本稿では,オンライン二段階問題のオンラインアルゴリズムを逆学習アルゴリズムから導出する一般アルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider an online two-stage stochastic optimization with long-term
constraints over a finite horizon of $T$ periods. At each period, we take the
first-stage action, observe a model parameter realization and then take the
second-stage action from a feasible set that depends both on the first-stage
decision and the model parameter. We aim to minimize the cumulative objective
value while guaranteeing that the long-term average second-stage decision
belongs to a set. We propose a general algorithmic framework that derives
online algorithms for the online two-stage problem from adversarial learning
algorithms. Also, the regret bound of our algorithm cam be reduced to the
regret bound of embedded adversarial learning algorithms. Based on our
framework, we obtain new results under various settings. When the model
parameter at each period is drawn from identical distributions, we derive
state-of-art regret bound that improves previous bounds under special cases.
Our algorithm is also robust to adversarial corruptions of model parameter
realizations. When the model parameters are drawn from unknown non-stationary
distributions and we are given prior estimates of the distributions, we develop
a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$
measures the total inaccuracy of the prior estimates.
- Abstract(参考訳): 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。
各期間において、第一段階のアクションをとり、モデルパラメータの実現を観察し、第一段階の決定とモデルパラメータの両方に依存する実行可能セットから第二段階のアクションを取る。
我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。
本稿では,オンライン二段階問題のオンラインアルゴリズムを逆学習アルゴリズムから導出する一般アルゴリズムフレームワークを提案する。
また、我々のアルゴリズムカムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元される。
フレームワークに基づいて、さまざまな設定で新しい結果を得る。
各期間のモデルパラメータが同一分布から引き出されるとき、我々は特別な場合における過去の境界を改善する最先端の後悔境界を導出する。
このアルゴリズムはモデルパラメータ実現の逆破壊にも頑健である。
モデルパラメータが未知の非定常分布から引き出され、その分布の事前推定が与えられたとき、我々はこのフレームワークから新たなアルゴリズムを開発し、result $o(w_t+\sqrt{t})$、ここで$w_t$は事前推定の完全な不正確性を測定する。
関連論文リスト
- Regret Minimization via Saddle Point Optimization [29.78262192683203]
決定推定係数 (DEC) は, 構造的バンディットと強化学習における最悪の既往歴に対して, ほぼ下限および上限の値を与えることを示した。
推定・判定アルゴリズム(E2D)の任意の変種を導出する。
我々の定式化は有限モデルクラスと線形フィードバックモデルのための実用的なアルゴリズムにつながる。
論文 参考訳(メタデータ) (2024-03-15T15:09:13Z) - Constrained Online Two-stage Stochastic Optimization: Algorithm with
(and without) Predictions [19.537289123577022]
有限地平線上の長期制約付きオンライン2段階最適化をT$周期で検討する。
対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-01-02T07:46:33Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Online Learning Under A Separable Stochastic Approximation Framework [20.26530917721778]
分離可能な近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。
提案アルゴリズムは,他の一般的な学習アルゴリズムと比較して,より堅牢でテスト性能が高いことを示す。
論文 参考訳(メタデータ) (2023-05-12T13:53:03Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms
for Stochastic Shortest Path [29.289190242826688]
本稿では,最短経路(SSP)モデルにおいて,後悔するアルゴリズムを開発するための汎用テンプレートを提案する。
まず、厳密な正のコストでモデルフリーとミニマックス最適の2つの新しいアルゴリズムを開発する。
どちらのアルゴリズムも高度にスパースな更新を認めており、既存のアルゴリズムよりも計算効率が良い。
論文 参考訳(メタデータ) (2021-06-15T19:15:17Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。