論文の概要: Improved Algorithms for Adversarial Bandits with Unbounded Losses
- arxiv url: http://arxiv.org/abs/2310.01756v1
- Date: Tue, 3 Oct 2023 02:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:55:56.448184
- Title: Improved Algorithms for Adversarial Bandits with Unbounded Losses
- Title(参考訳): 非有界損失を伴う逆バンディットのアルゴリズム改善
- Authors: Mingyu Chen, Xuezhou Zhang
- Abstract要約: UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。
非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。
我々のアルゴリズムは、無拘束の損失を処理する既存のアルゴリズムを一貫して上回っている。
- 参考スコア(独自算出の注目度): 17.276918882127728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the Adversarial Multi-Armed Bandits (MAB) problem with unbounded
losses, where the algorithms have no prior knowledge on the sizes of the
losses. We present UMAB-NN and UMAB-G, two algorithms for non-negative and
general unbounded loss respectively. For non-negative unbounded loss, UMAB-NN
achieves the first adaptive and scale free regret bound without uniform
exploration. Built up on that, we further develop UMAB-G that can learn from
arbitrary unbounded loss. Our analysis reveals the asymmetry between positive
and negative losses in the MAB problem and provide additional insights. We also
accompany our theoretical findings with extensive empirical evaluations,
showing that our algorithms consistently out-performs all existing algorithms
that handles unbounded losses.
- Abstract(参考訳): 本稿では,非有界な損失を伴うMAB(Adversarial Multi-Armed Bandits)問題を考える。
UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。
非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。
その上に構築されたUMAB-Gは任意の非有界損失から学習できる。
分析の結果,MAB問題における正損失と負損失の非対称性が明らかとなり,さらなる知見が得られた。
また,本手法は無拘束損失を処理する既存のアルゴリズムを一貫して上回っていることを示すとともに,広範な実験的評価を行った。
関連論文リスト
- Linear Bandits with Partially Observable Features [35.08645010112184]
本稿では,部分的に観測可能な特徴を持つ線形帯域問題を導入し,部分的な報奨情報と突発的な推定を行う。
遅延部分に対する適切なアドレスがなければ、後悔は、報酬に対する影響が不明であるため、決定の地平線上で線形に増加する可能性がある。
本稿では,潜在特徴を扱うための新しい解析法と,サブ線形後悔を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T04:15:38Z) - Online Algorithm for Aggregating Experts' Predictions with Unbounded Quadratic Loss [72.32459441619388]
本稿では,損失の上限に関する事前知識を必要としない専門家予測を集約するアルゴリズムを提案する。
このアルゴリズムは、専門家の損失の指数的再考に基づいている。
論文 参考訳(メタデータ) (2025-01-11T10:52:59Z) - LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Regret Minimization and Convergence to Equilibria in General-sum Markov
Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。
我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文 参考訳(メタデータ) (2022-07-28T16:27:59Z) - Rethinking and Reweighting the Univariate Losses for Multi-Label
Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。
既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文 参考訳(メタデータ) (2021-05-10T09:23:27Z) - Towards Optimal Algorithms for Multi-Player Bandits without Collision
Sensing Information [9.467920768170515]
衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。
このアルゴリズムは最先端アルゴリズムで共有される2つの問題を回避している。
それは腕の最小限の期待報酬に低い境界を入力として必要とせず、そのパフォーマンスは最小の期待報酬に逆比例してスケールしません。
論文 参考訳(メタデータ) (2021-03-24T10:14:16Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。