論文の概要: Joint Online Learning and Decision-making via Dual Mirror Descent
- arxiv url: http://arxiv.org/abs/2104.09750v1
- Date: Tue, 20 Apr 2021 04:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:28:39.258678
- Title: Joint Online Learning and Decision-making via Dual Mirror Descent
- Title(参考訳): Dual Mirror Descentによる共同オンライン学習と意思決定
- Authors: Alfonso Lobos, Paul Grigas, Zheng Wen
- Abstract要約: 我々は、コストの上下の境界の対象となる有限時間領域上のオンライン収益問題を検討します。
本稿では,オンラインデュアルミラー降下方式と汎用パラメータ学習プロセスを組み合わせた,新しいオフラインベンチマークを提案する。
パラメータが知られておらず、学習しなければならない場合、後悔と制約違反は、学習プロセスの収束に直接依存する以前の$O(sqrtT)$用語と用語の合計であることを示しています。
- 参考スコア(独自算出の注目度): 20.560099149143245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider an online revenue maximization problem over a finite time horizon
subject to lower and upper bounds on cost. At each period, an agent receives a
context vector sampled i.i.d. from an unknown distribution and needs to make a
decision adaptively. The revenue and cost functions depend on the context
vector as well as some fixed but possibly unknown parameter vector to be
learned. We propose a novel offline benchmark and a new algorithm that mixes an
online dual mirror descent scheme with a generic parameter learning process.
When the parameter vector is known, we demonstrate an $O(\sqrt{T})$ regret
result as well an $O(\sqrt{T})$ bound on the possible constraint violations.
When the parameter is not known and must be learned, we demonstrate that the
regret and constraint violations are the sums of the previous $O(\sqrt{T})$
terms plus terms that directly depend on the convergence of the learning
process.
- Abstract(参考訳): 我々は、コストの上下限を満たす有限時間地平線上でのオンライン収益最大化問題を考察する。
各期間に、エージェントは、サンプルされたコンテキストベクトルを受信する。
未知の分布から判断し 適応的に行う必要があります
収益関数とコスト関数は、学習すべき固定だが未知のパラメータベクトルと同様に、文脈ベクトルに依存する。
本稿では、オンラインの二重ミラー降下スキームと汎用パラメータ学習プロセスを組み合わせた新しいオフラインベンチマークと新しいアルゴリズムを提案する。
パラメータベクトルが知られているとき、$O(\sqrt{T})$後悔の結果と、考えられる制約違反に縛られる$O(\sqrt{T})$後悔の結果を示す。
パラメータが分かっておらず、学習しなければならない場合、後悔と制約違反は前の$o(\sqrt{t})$項の和であり、学習プロセスの収束に直接依存する項であることを示す。
関連論文リスト
- Agnostic Smoothed Online Learning [5.167069404528051]
本稿では,$mu$の事前知識を必要とせずに,オンライン学習を円滑に行うためのサブ線形後悔を保証するアルゴリズムを提案する。
R-Coverは、次元$d$を持つ関数クラスに対して、適応的後悔$tilde O(sqrtdT/sigma)$を持つ。
論文 参考訳(メタデータ) (2024-10-07T15:25:21Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Stochastic Contextual Bandits with Long Horizon Rewards [31.981315673799806]
この研究は、現在の報酬がほとんどの$s$以前のアクションに依存する文脈的線形包帯を調査することによって、この方向に一歩踏み出す。
本稿では,親和性を利用して依存パターンと腕パラメータを共同で発見するアルゴリズムを提案する。
以上の結果から,データ間の時間的長期依存に対処し,報奨地平線への依存を避けるための新たな分析が必要である。
論文 参考訳(メタデータ) (2023-02-02T01:25:30Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Learning in Markov Decision Processes under Constraints [34.03325546283489]
本稿では,マルコフプロセスによってモデル化された環境とエージェントが繰り返し対話するマルコフ決定過程における強化学習について考察する。
我々は,累積報酬をT$タイムステップで最大化するモデルベースRLアルゴリズムを設計する。
我々は、報酬の後悔と残りのコストの増大を犠牲にして、M$コストの所望のサブセットの後悔を減らす方法を示す。
論文 参考訳(メタデータ) (2020-02-27T20:58:39Z) - Online Learning with Imperfect Hints [72.4277628722419]
オンライン学習において,不完全な方向ヒントを用いたアルゴリズムを開発し,ほぼ一致している。
我々のアルゴリズムはヒントの品質を損なうものであり、後悔の限界は常に相関するヒントの場合と隠れない場合とを補間する。
論文 参考訳(メタデータ) (2020-02-11T23:06:09Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。