論文の概要: Improved Algorithms for Adversarial Bandits with Unbounded Losses
- arxiv url: http://arxiv.org/abs/2310.01756v1
- Date: Tue, 3 Oct 2023 02:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:55:56.448184
- Title: Improved Algorithms for Adversarial Bandits with Unbounded Losses
- Title(参考訳): 非有界損失を伴う逆バンディットのアルゴリズム改善
- Authors: Mingyu Chen, Xuezhou Zhang
- Abstract要約: UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。
非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。
我々のアルゴリズムは、無拘束の損失を処理する既存のアルゴリズムを一貫して上回っている。
- 参考スコア(独自算出の注目度): 17.276918882127728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the Adversarial Multi-Armed Bandits (MAB) problem with unbounded
losses, where the algorithms have no prior knowledge on the sizes of the
losses. We present UMAB-NN and UMAB-G, two algorithms for non-negative and
general unbounded loss respectively. For non-negative unbounded loss, UMAB-NN
achieves the first adaptive and scale free regret bound without uniform
exploration. Built up on that, we further develop UMAB-G that can learn from
arbitrary unbounded loss. Our analysis reveals the asymmetry between positive
and negative losses in the MAB problem and provide additional insights. We also
accompany our theoretical findings with extensive empirical evaluations,
showing that our algorithms consistently out-performs all existing algorithms
that handles unbounded losses.
- Abstract(参考訳): 本稿では,非有界な損失を伴うMAB(Adversarial Multi-Armed Bandits)問題を考える。
UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。
非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。
その上に構築されたUMAB-Gは任意の非有界損失から学習できる。
分析の結果,MAB問題における正損失と負損失の非対称性が明らかとなり,さらなる知見が得られた。
また,本手法は無拘束損失を処理する既存のアルゴリズムを一貫して上回っていることを示すとともに,広範な実験的評価を行った。
関連論文リスト
- LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Being Properly Improper [36.52509571098292]
正当性を剥奪された場合、類型的確率に基づく損失を分析する。
S. Arimoto が導入した半世紀の古い損失の自然な延長は、ねじれ固有であることを示す。
次に、適切な損失を減らし、加速するために、最も優れたオフザシェルフアルゴリズムをいくつか提供した理論に目を向けます。
論文 参考訳(メタデータ) (2021-06-18T05:00:15Z) - Rethinking and Reweighting the Univariate Losses for Multi-Label
Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。
既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文 参考訳(メタデータ) (2021-05-10T09:23:27Z) - Towards Optimal Algorithms for Multi-Player Bandits without Collision
Sensing Information [9.467920768170515]
衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。
このアルゴリズムは最先端アルゴリズムで共有される2つの問題を回避している。
それは腕の最小限の期待報酬に低い境界を入力として必要とせず、そのパフォーマンスは最小の期待報酬に逆比例してスケールしません。
論文 参考訳(メタデータ) (2021-03-24T10:14:16Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。