Fugu-MT 論文翻訳(概要): Improved Algorithms for Adversarial Bandits with Unbounded Losses

論文の概要: Improved Algorithms for Adversarial Bandits with Unbounded Losses

arxiv url: http://arxiv.org/abs/2310.01756v1
Date: Tue, 3 Oct 2023 02:44:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 17:55:56.448184
Title: Improved Algorithms for Adversarial Bandits with Unbounded Losses
Title（参考訳）: 非有界損失を伴う逆バンディットのアルゴリズム改善
Authors: Mingyu Chen, Xuezhou Zhang
Abstract要約: UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。我々のアルゴリズムは、無拘束の損失を処理する既存のアルゴリズムを一貫して上回っている。
参考スコア（独自算出の注目度）: 17.276918882127728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the Adversarial Multi-Armed Bandits (MAB) problem with unbounded losses, where the algorithms have no prior knowledge on the sizes of the losses. We present UMAB-NN and UMAB-G, two algorithms for non-negative and general unbounded loss respectively. For non-negative unbounded loss, UMAB-NN achieves the first adaptive and scale free regret bound without uniform exploration. Built up on that, we further develop UMAB-G that can learn from arbitrary unbounded loss. Our analysis reveals the asymmetry between positive and negative losses in the MAB problem and provide additional insights. We also accompany our theoretical findings with extensive empirical evaluations, showing that our algorithms consistently out-performs all existing algorithms that handles unbounded losses.
Abstract（参考訳）: 本稿では,非有界な損失を伴うMAB(Adversarial Multi-Armed Bandits)問題を考える。 UMAB-NN と UMAB-G は,それぞれ非負と一般の非有界損失の2つのアルゴリズムである。非負の非有界損失に対して、UMAB-NNは、一様探索なしで適応的かつスケールの自由な後悔を初めて達成する。その上に構築されたUMAB-Gは任意の非有界損失から学習できる。分析の結果,MAB問題における正損失と負損失の非対称性が明らかとなり,さらなる知見が得られた。また,本手法は無拘束損失を処理する既存のアルゴリズムを一貫して上回っていることを示すとともに,広範な実験的評価を行った。

関連論文リスト

Linear Bandits with Partially Observable Features [35.08645010112184]
本稿では,部分的に観測可能な特徴を持つ線形帯域問題を導入し,部分的な報奨情報と突発的な推定を行う。遅延部分に対する適切なアドレスがなければ、後悔は、報酬に対する影響が不明であるため、決定の地平線上で線形に増加する可能性がある。本稿では,潜在特徴を扱うための新しい解析法と,サブ線形後悔を実現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-10T04:15:38Z)
Online Algorithm for Aggregating Experts' Predictions with Unbounded Quadratic Loss [72.32459441619388]
本稿では,損失の上限に関する事前知識を必要としない専門家予測を集約するアルゴリズムを提案する。このアルゴリズムは、専門家の損失の指数的再考に基づいている。
論文参考訳（メタデータ） (2025-01-11T10:52:59Z)
LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-12T17:08:31Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-21T00:17:24Z)
Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文参考訳（メタデータ） (2023-02-15T01:57:57Z)
Regret Minimization and Convergence to Equilibria in General-sum Markov Games [57.568118148036376]
汎用マルコフゲームにおいて,全てのエージェントが実行した場合のサブ線形後悔保証を提供する学習アルゴリズムを初めて提示する。我々のアルゴリズムは分散化され、計算効率が良く、エージェント間の通信は不要である。
論文参考訳（メタデータ） (2022-07-28T16:27:59Z)
Being Properly Improper [36.52509571098292]
正当性を剥奪された場合、類型的確率に基づく損失を分析する。 S. Arimoto が導入した半世紀の古い損失の自然な延長は、ねじれ固有であることを示す。次に、適切な損失を減らし、加速するために、最も優れたオフザシェルフアルゴリズムをいくつか提供した理論に目を向けます。
論文参考訳（メタデータ） (2021-06-18T05:00:15Z)
Rethinking and Reweighting the Univariate Losses for Multi-Label Ranking: Consistency and Generalization [44.73295800450414]
(部分)ランキング損失は、マルチラベル分類の一般的な評価尺度です。既存の理論と実践の間にはギャップがある -- ペアワイズな損失は有望なパフォーマンスをもたらすが一貫性を欠く可能性がある。
論文参考訳（メタデータ） (2021-05-10T09:23:27Z)
Towards Optimal Algorithms for Multi-Player Bandits without Collision Sensing Information [9.467920768170515]
衝突センシング情報のないマルチプレイヤーマルチアームバンディットのための新しいアルゴリズムを提案する。このアルゴリズムは最先端アルゴリズムで共有される2つの問題を回避している。それは腕の最小限の期待報酬に低い境界を入力として必要とせず、そのパフォーマンスは最小の期待報酬に逆比例してスケールしません。
論文参考訳（メタデータ） (2021-03-24T10:14:16Z)
Excursion Search for Constrained Bayesian Optimization under a Limited Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文参考訳（メタデータ） (2020-05-15T09:54:09Z)
Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文参考訳（メタデータ） (2020-02-01T15:33:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。