論文の概要: Online Meta-Learning in Adversarial Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2205.15921v1
- Date: Tue, 31 May 2022 16:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:31:41.557497
- Title: Online Meta-Learning in Adversarial Multi-Armed Bandits
- Title(参考訳): 対戦型マルチアーマッドバンドにおけるオンラインメタラーニング
- Authors: Ilya Osadchiy, Kfir Y. Levy, Ron Meir
- Abstract要約: オンライン・ウィズ・イン・オンライン・セットアップでは、プレイヤーが複数の武器を持ったバンディット・エピソードに遭遇する。
プレイヤーのパフォーマンスは、敵が生み出した損失に応じて、各エピソードの最高の腕に対する後悔として測定される。
この経験的分布における不均一性を生かし,問題依存の遺言境界を導出するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.063041030179367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study meta-learning for adversarial multi-armed bandits. We consider the
online-within-online setup, in which a player (learner) encounters a sequence
of multi-armed bandit episodes. The player's performance is measured as regret
against the best arm in each episode, according to the losses generated by an
adversary. The difficulty of the problem depends on the empirical distribution
of the per-episode best arm chosen by the adversary. We present an algorithm
that can leverage the non-uniformity in this empirical distribution, and derive
problem-dependent regret bounds. This solution comprises an inner learner that
plays each episode separately, and an outer learner that updates the
hyper-parameters of the inner algorithm between the episodes. In the case where
the best arm distribution is far from uniform, it improves upon the best bound
that can be achieved by any online algorithm executed on each episode
individually without meta-learning.
- Abstract(参考訳): 敵対的多腕バンディットのメタラーニングについて検討した。
オンライン・ウィズ・イン・オンライン・セットアップでは、プレイヤー(学習者)が複数の腕のバンディットエピソードに遭遇する。
プレイヤーのパフォーマンスは、敵が生み出した損失に応じて、各エピソードの最高の腕に対する後悔として測定される。
問題の難易度は、敵によって選択された最善の腕ごとの経験的分布に依存する。
この経験的分布における不均一性を生かし,問題依存的後悔境界を導出するアルゴリズムを提案する。
本ソリューションは、各エピソードを個別に演奏する内的学習者と、各エピソード間の内的アルゴリズムのハイパーパラメータを更新する外的学習者とを含む。
最適な腕の分布が一様ではない場合、メタ学習なしで各エピソードで個別に実行されるオンラインアルゴリズムによって達成される最良の境界を改善する。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Online Reinforcement Learning with Uncertain Episode Lengths [31.55023147921953]
本稿では,各エピソードの長さが分布から引き出されるとき,エピソード強化学習の一般的な枠組みについて考察する。
この新たな一般割引による後悔の最小化は、不確実な長さの後悔と等価であることを示す。
また, エピソード長の不確かさが不明な場合でも, 同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2023-02-07T17:12:49Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Online Multiobjective Minimax Optimization and Applications [14.699969822572308]
本稿では,適応的な対戦相手が新しいゲームを導入する,シンプルだが汎用的なオンライン学習フレームワークを提案する。
学習者のゴールは、累積ベクトル値損失の最大座標を最小化することである。
対戦相手がまず行動を発表しなければならない設定と競合する簡単なアルゴリズムを提供する。
最適なアルゴリズムと境界を回復して、外部の後悔、内部の後悔、適応的な後悔、多集団の後悔、その後の後悔、睡眠専門家の設定における後悔の概念を最小化できます。
論文 参考訳(メタデータ) (2021-08-09T06:52:08Z) - Online Markov Decision Processes with Aggregate Bandit Feedback [74.85532145498742]
本稿では,オンライン有限水平マルコフ決定過程の新たな変種について検討する。
各エピソードにおいて、学習者は、エピソードの選択した方針によって実現された軌道に沿って蓄積された損失を被り、総括的盗聴フィードバックを観察する。
我々の主な結果は計算効率のよいアルゴリズムで、$O(sqrtK)$ regret for this set, where $K$ is the number of episodes。
論文 参考訳(メタデータ) (2021-01-31T16:49:07Z) - Adversaries in Online Learning Revisited: with applications in Robust
Optimization and Adversarial training [55.30970087795483]
オンライン学習における「敵対的」の概念を再考し、堅牢な最適化と敵対的なトレーニング問題を解決することに動機づけられます。
我々は,想像遊びを用いた多種多様な問題クラスに対する一般的なアプローチを確立する。
論文 参考訳(メタデータ) (2021-01-27T14:23:06Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Multitask Bandit Learning Through Heterogeneous Feedback Aggregation [35.923544685900055]
我々は,この問題を,一組のプレイヤーが一組のアームと同時に相互作用する,$epsilon$-multi-player multi-armed bandit問題として定式化する。
我々は、異なるプレイヤーが収集した報酬を適応的に集約する高信頼な有界アルゴリズム、RobostAgg$(epsilon)$を開発する。
論文 参考訳(メタデータ) (2020-10-29T07:13:28Z) - Online Algorithm for Unsupervised Sequential Selection with Contextual
Information [38.47252956961143]
文脈教師なしシーケンス選択(USS)について検討する。
USSは、観測されたフィードバックから腕の喪失を推測できない文脈的包帯問題の新しい変種である。
本稿では,文脈的 USS 問題に対するアルゴリズムを提案し,それがサブ線形後悔であることを示す。
論文 参考訳(メタデータ) (2020-10-23T12:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。