論文の概要: Robust Pareto Set Identification with Contaminated Bandit Feedback
- arxiv url: http://arxiv.org/abs/2206.02666v1
- Date: Mon, 6 Jun 2022 15:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 15:21:20.024514
- Title: Robust Pareto Set Identification with Contaminated Bandit Feedback
- Title(参考訳): 汚染バンディットフィードバックを用いたロバストパレート集合同定
- Authors: Kerem Bozgan, Cem Tekin
- Abstract要約: マルチオブジェクト・マルチアーム・バンディット(MO-MAB)の報奨観測における問題点を考察する。
各アームプルでは、何らかの確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。
本稿では,ユーザの設定した精度要求を精度パラメータで緩和する,ロバストPSIのための中央値に基づくMO-MABアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.417030142037563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the Pareto set identification (PSI) problem in multi-objective
multi-armed bandits (MO-MAB) with contaminated reward observations. At each arm
pull, with some probability, the true reward samples are replaced with the
samples from an arbitrary contamination distribution chosen by the adversary.
We propose a median-based MO-MAB algorithm for robust PSI that abides by the
accuracy requirements set by the user via an accuracy parameter. We prove that
the sample complexity of this algorithm depends on the accuracy parameter
inverse squarely. We compare the proposed algorithm with a mean-based method
from MO-MAB literature on Gaussian reward distributions. Our numerical results
verify our theoretical expectations and show the necessity for robust algorithm
design in the adversarial setting.
- Abstract(参考訳): 我々は,多目的多腕バンディット (mo-mab) におけるパレート集合同定 (psi) 問題を考える。
各アームプルでは、何らかの確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。
本稿では,ユーザの設定した精度要求を精度パラメータで緩和する,ロバストPSIのための中央値に基づくMO-MABアルゴリズムを提案する。
このアルゴリズムのサンプルの複雑さは、逆の精度パラメータに依存することを証明している。
提案手法をmo-mab文献のガウス報酬分布に関する平均ベース手法と比較した。
計算結果は,我々の理論的期待を検証し,対角的条件下での頑健なアルゴリズム設計の必要性を示す。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Bandit Pareto Set Identification: the Fixed Budget Setting [12.326452468513228]
マルチアームバンディットモデルにおける純粋探索問題について検討する。
目的は、平均値が他の分布よりも均一に悪くない分布を特定することである。
論文 参考訳(メタデータ) (2023-11-07T13:43:18Z) - A General Recipe for the Analysis of Randomized Multi-Armed Bandit
Algorithms [16.114012813668932]
我々は2つの有名なバンディットアルゴリズム、Minimum Empirical Divergence (MED)とThompson Sampling (TS)を再検討する。
MEDがこれらのモデルすべてに最適であることを示すとともに、最適性がすでに知られているTSアルゴリズムの簡単な後悔解析も提供する。
論文 参考訳(メタデータ) (2023-03-10T16:43:48Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。