論文の概要: Generalized Translation and Scale Invariant Online Algorithm for
Adversarial Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2109.09212v1
- Date: Sun, 19 Sep 2021 20:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:51:04.058266
- Title: Generalized Translation and Scale Invariant Online Algorithm for
Adversarial Multi-Armed Bandits
- Title(参考訳): 逆多元帯域に対する一般化翻訳とスケール不変オンラインアルゴリズム
- Authors: Kaan Gokcesu, Hakan Gokcesu
- Abstract要約: 敵の多腕バンディット問題について検討し、任意の翻訳と腕の損失のスケールで不変な完全にオンラインのアルゴリズムフレームワークを作成する。
我々のアルゴリズムは、普遍的な予測の観点から機能し、使用する性能指標は、任意のアーム選択シーケンスに対して期待された後悔である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the adversarial multi-armed bandit problem and create a completely
online algorithmic framework that is invariant under arbitrary translations and
scales of the arm losses. We study the expected performance of our algorithm
against a generic competition class, which makes it applicable for a wide
variety of problem scenarios. Our algorithm works from a universal prediction
perspective and the performance measure used is the expected regret against
arbitrary arm selection sequences, which is the difference between our losses
and a competing loss sequence. The competition class can be designed to include
fixed arm selections, switching bandits, contextual bandits, or any other
competition of interest. The sequences in the competition class are generally
determined by the specific application at hand and should be designed
accordingly. Our algorithm neither uses nor needs any preliminary information
about the loss sequences and is completely online. Its performance bounds are
the second order bounds in terms of sum of the squared losses, where any affine
transform of the losses has no effect on the normalized regret.
- Abstract(参考訳): 敵対的多腕バンディット問題を研究し,任意の翻訳や腕の損失の尺度の下で不変な完全オンラインアルゴリズムフレームワークを構築した。
本稿では,アルゴリズムが期待する性能を汎用競合クラスと比較し,多種多様な問題シナリオに適用できるようにする。
このアルゴリズムは普遍的な予測の観点から動作し、使用する性能尺度は任意のアーム選択シーケンスに対する期待後悔であり、これは我々の損失と競合する損失シーケンスとの差である。
コンペティションクラスは固定アームの選択、バンディットの切り替え、コンテキストのバンディット、その他の興味のある競技を含むように設計されている。
コンペティションクラスのシーケンスは一般的に特定のアプリケーションによって決定され、それに応じて設計されるべきである。
我々のアルゴリズムは損失シーケンスに関する予備情報も不要であり、完全にオンラインである。
その性能限界は二乗損失の和の2次境界であり、損失のアフィン変換は正規化された後悔に影響を与えない。
関連論文リスト
- Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。
プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。
予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文 参考訳(メタデータ) (2024-09-24T02:37:33Z) - Data Dependent Regret Guarantees Against General Comparators for Full or
Bandit Feedback [0.0]
対戦型オンライン学習問題について検討し、完全オンライン・アルゴリズム・フレームワークを構築した。
我々のアルゴリズムは普遍的な予測の観点から機能し、使用する性能指標は任意のコンパレータ列に対する期待された後悔である。
論文 参考訳(メタデータ) (2023-03-12T00:18:46Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Second Order Regret Bounds Against Generalized Expert Sequences under
Partial Bandit Feedback [0.0]
本稿では,部分帯域フィードバック設定下でのエキスパートアドバイスの問題について検討し,逐次ミニマックス最適アルゴリズムを作成する。
本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。
論文 参考訳(メタデータ) (2022-04-13T22:48:12Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - A Generalized Online Algorithm for Translation and Scale Invariant
Prediction with Expert Advice [0.0]
本稿では,専門家の助言問題による逐次予測において,一般競合クラスに対するアルゴリズムの期待された後悔について検討する。
我々の後悔の限界は任意のスケーリングと損失の翻訳の下で安定している。
論文 参考訳(メタデータ) (2020-09-09T15:45:28Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。