論文の概要: Banker Online Mirror Descent
- arxiv url: http://arxiv.org/abs/2106.08943v1
- Date: Wed, 16 Jun 2021 16:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 20:19:19.873771
- Title: Banker Online Mirror Descent
- Title(参考訳): Banker Online Mirror Descent
- Authors: Jiatai Huang, Longbo Huang
- Abstract要約: Banker-OMDは、オンライン学習アルゴリズム設計において古典的オンラインミラー・ディフレッシュ(OMD)技法を一般化する新しいフレームワークである。
遅延フィードバックを伴う3つの重要なバンディットシナリオに適用可能なバンクアOMDを実演する。
特に、最初の遅延逆線形バンドイットアルゴリズムは、$tildeO(textpoly(n)(sqrtT + sqrtD))$ regretとなる。
- 参考スコア(独自算出の注目度): 25.927810369879175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Banker-OMD, a novel framework generalizing the classical Online
Mirror Descent (OMD) technique in online learning algorithm design. Banker-OMD
allows algorithms to robustly handle delayed feedback, and offers a general
methodology for achieving $\tilde{O}(\sqrt{T} + \sqrt{D})$-style regret bounds
in various delayed-feedback online learning tasks, where $T$ is the time
horizon length and $D$ is the total feedback delay. We demonstrate the power of
Banker-OMD with applications to three important bandit scenarios with delayed
feedback, including delayed adversarial Multi-armed bandits (MAB), delayed
adversarial linear bandits, and a novel delayed best-of-both-worlds MAB
setting. Banker-OMD achieves nearly-optimal performance in all the three
settings. In particular, it leads to the first delayed adversarial linear
bandit algorithm achieving $\tilde{O}(\text{poly}(n)(\sqrt{T} + \sqrt{D}))$
regret.
- Abstract(参考訳): 我々は,オンライン学習アルゴリズム設計において,古典的オンラインミラー・ディフレッシュ(OMD)技術を一般化した新しいフレームワークであるBanker-OMDを提案する。
Banker-OMDはアルゴリズムによる遅延フィードバックの堅牢な処理を可能にし、様々な遅延フィードバックオンライン学習タスクにおける$\tilde{O}(\sqrt{T} + \sqrt{D})$スタイルの後悔境界を達成するための一般的な方法論を提供する。
本稿では,Banker-OMDのパワーを3つの重要なバンディットシナリオに適用し,遅延逆数多腕バンディット(MAB),遅延逆数線形バンディット(MAB)などの遅延フィードバックを応用した。
Banker-OMDは3つの設定でほぼ最適のパフォーマンスを達成する。
特に、これは最初の遅延逆線型バンドイットアルゴリズムにつながり、$\tilde{O}(\text{poly}(n)(\sqrt{T} + \sqrt{D}))$ regretとなる。
関連論文リスト
- Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Improved Regret for Bandit Convex Optimization with Delayed Feedback [50.46856739179311]
遅延フィードバックを伴うバンド凸最適化(BCO)。
我々は,新しいアルゴリズムを開発し,一般にO(sqrtnT3/4+sqrtdT)$の後悔境界を満足していることを証明する。
提案アルゴリズムは,強い凸関数に対して$O((nT)2/3log/3T+dlog T)$に制限された後悔を改善することができることを示す。
論文 参考訳(メタデータ) (2024-02-14T13:08:26Z) - Adversarial Bandits with Multi-User Delayed Feedback: Theory and
Application [17.64363983613468]
我々は,マルチユーザ遅延フィードバックを用いた逆MAB問題を定式化し,修正されたEXP3アルゴリズム MUD-EXP3 を設計する。
本稿では,複数のユーザからの遅延フィードバック結果について考察し,内部分布に制限を加えることなく検討する。
論文 参考訳(メタデータ) (2023-10-17T12:08:15Z) - A Best-of-both-worlds Algorithm for Bandits with Delayed Feedback with Robustness to Excessive Delays [24.998122268199797]
本稿では,フィードバックが可変に遅延するバンディットのためのベスト・オブ・ボス・ワールドス・アルゴリズムを提案する。
我々のアルゴリズムは任意の過剰な遅延を許容し、$T$をオーダーすることができる。
論文 参考訳(メタデータ) (2023-08-21T12:17:40Z) - Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。
まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。
DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Banker Online Mirror Descent: A Universal Approach for Delayed Online
Bandit Learning [22.18577284185939]
Banker Online Mirror Descent (Banker-OMD) は、オンライン学習文学における古典的オンラインミラー・ディッセンス(OMD)技法を一般化する新しいフレームワークである。
遅延フィードバックを伴う2つの重要なバンディット学習シナリオに適用することで,textttBanker-OMDのパワーを実証する。
textttBanker-OMDは、$widetildemathcal O(sqrt KL(sqrt T+sqrt D))を達成した最初の遅延スケールフリー逆数MABアルゴリズムをもたらす
論文 参考訳(メタデータ) (2023-01-25T10:23:46Z) - Online Strongly Convex Optimization with Unknown Delays [30.931538196386672]
オンライン凸最適化の問題点を未知の遅延で検討する。
まず、OGDの遅延変形を強凸関数に拡張する。
我々は、$d$が最大遅延である$O(dlog T)$のより良い後悔の境界を確立します。
論文 参考訳(メタデータ) (2021-03-21T10:16:15Z) - Bandit Linear Optimization for Sequential Decision Making and
Extensive-Form Games [102.23975166536326]
tree-form sequential decision making (tfsdm) は、エージェントと潜在的に敵対的な環境の間のツリー形式の相互作用をモデル化することで、古典的なワンショット意思決定を拡張する。
これは、各プレイヤーが幅広い形式のゲームで直面するオンライン意思決定問題、およびマルコフ決定プロセス、およびエージェントが観測された履歴を条件とする部分観察可能なマルコフ決定プロセスをキャプチャする。
本稿では, (i) 線形時間損失と (ii) $o(sqrtt)$ cumulative regret の両方を提供する拡張dmのバンディット線形最適化問題に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T05:00:13Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。