論文の概要: Online Learning for Active Cache Synchronization
- arxiv url: http://arxiv.org/abs/2002.12014v2
- Date: Fri, 21 Aug 2020 08:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:37:34.021611
- Title: Online Learning for Active Cache Synchronization
- Title(参考訳): アクティブキャッシュ同期のためのオンライン学習
- Authors: Andrey Kolobov, S\'ebastien Bubeck, Julian Zimmert
- Abstract要約: 既存のマルチアームバンディット(MAB)モデルでは、2つの暗黙の仮定がある: 腕は演奏時にのみペイオフを生成し、エージェントは生成されたすべてのペイオフを観察する。
本稿では,すべてのアームが常にコストを発生させるMAB変種である同期バンディットを紹介するが,エージェントは腕の演奏時のみ,腕の即時コストを観測する。
MirrorSyncは、同期バンディットのためのオンライン学習アルゴリズムで、$O(T2/3)の反逆的後悔を確立し、それを実用的にする方法を示す。
- 参考スコア(独自算出の注目度): 18.00946110351528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-armed bandit (MAB) models make two implicit assumptions: an
arm generates a payoff only when it is played, and the agent observes every
payoff that is generated. This paper introduces synchronization bandits, a MAB
variant where all arms generate costs at all times, but the agent observes an
arm's instantaneous cost only when the arm is played. Synchronization MABs are
inspired by online caching scenarios such as Web crawling, where an arm
corresponds to a cached item and playing the arm means downloading its fresh
copy from a server. We present MirrorSync, an online learning algorithm for
synchronization bandits, establish an adversarial regret of $O(T^{2/3})$ for
it, and show how to make it practical.
- Abstract(参考訳): 既存のマルチアームバンディット(MAB)モデルでは、2つの暗黙の仮定がある: 腕は演奏時にのみペイオフを生成し、エージェントは生成されたすべてのペイオフを観察する。
本稿では,すべてのアームが常にコストを発生させるMAB変種である同期バンディットを紹介するが,エージェントは腕の演奏時のみ,腕の即時コストを観測する。
同期MABは、ウェブクローリングのようなオンラインキャッシュシナリオにインスパイアされ、アームはキャッシュされたアイテムに対応し、アームを再生することはサーバから新しいコピーをダウンロードすることを意味する。
我々は,同期バンドイットのためのオンライン学習アルゴリズムであるmirrorsyncを提案し,それに対する敵対的後悔である$o(t^{2/3})を定め,その実践方法を示す。
関連論文リスト
- Bridging Rested and Restless Bandits with Graph-Triggering: Rising and Rotting [67.1631453378926]
Graph-Triggered Banditsは、安静と安静のバンディットを一般化するフレームワークである。
本研究は,2種類の単調包帯に焦点をあてる: 立ち上がり, 腕の期待される報酬が増加する, 引き金の数が増える, 回転する, 反対の行動が起こる。
論文 参考訳(メタデータ) (2024-09-09T18:23:07Z) - A General Framework for Clustering and Distribution Matching with Bandit Feedback [81.50716021326194]
我々は,帯域幅フィードバックを用いたクラスタリングと分散マッチング問題のための一般的なフレームワークを開発する。
誤り確率が$delta$を超えない任意のオンラインアルゴリズムに対して、平均アームプル数に基づいて漸近的でない下界を導出する。
論文 参考訳(メタデータ) (2024-09-08T12:19:12Z) - Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Almost Cost-Free Communication in Federated Best Arm Identification [76.12303738941254]
中央サーバと複数のクライアントを備えた多腕バンディット構成の連合学習における最適なアーム識別の問題について検討する。
逐次除去に基づく指数時間ステップでのみ通信を行う新しいアルゴリズム sc FedElim を提案する。
論文 参考訳(メタデータ) (2022-08-19T08:37:09Z) - Multi-Player Multi-Armed Bandits with Finite Shareable Resources Arms:
Learning Algorithms & Applications [32.313813562222066]
本研究では,分散化されたプレイヤーが協調して同じマルチアームバンディットをプレイし,総累積報酬を最大化する方法について検討する。
既存のMMABモデルは、複数のプレイヤーが同じ腕を引っ張った場合、衝突を起こし、報酬がゼロになるか、衝突が無く、独立した報酬が得られると仮定する。
衝突と非衝突設定の拡張として,共有可能な資源を持つMMABを提案する。
論文 参考訳(メタデータ) (2022-04-28T13:46:59Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Incentivized Bandit Learning with Self-Reinforcing User Preferences [9.233886766950054]
本稿では,多くのレコメンデーションシステムにおける実世界の現象を考慮したマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する。
我々は「At-Least-$n$ Explore-Then-Commit」と「UCB-List」という2つのMABポリシーを提案する。
両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。
論文 参考訳(メタデータ) (2021-05-19T01:06:32Z) - Multi-Armed Bandits with Dependent Arms [18.81667618369821]
我々は,従来のマルチアーマド・バンドイット問題(MABP)の変種について検討し,これを従属アームを持つマルチアーマド・バンドイット(Multi-Armed Bandits)と呼ぶ。
複数のアームをまとめてクラスタを形成し、同じクラスタに属するアームの報酬分布は、クラスタの特徴である未知のパラメータの既知の関数である。
UCBの原理に基づく学習アルゴリズムを開発し、これらの追加の側面観測を適切に活用し、探索・探索トレードオフを行う。
論文 参考訳(メタデータ) (2020-10-13T14:00:19Z) - Fair Algorithms for Multi-Agent Multi-Armed Bandits [29.68201160277817]
本稿では,古典的マルチアームバンディット問題のマルチエージェント変種を提案する。
目的は「ベストアーム」を学ばないことであり、実際、各エージェントは別のアームを個人にとって最高のものとみなすことができる。
3つの古典的マルチアームバンディットアルゴリズムのマルチエージェント変種が,サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2020-07-13T21:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。