論文の概要: Robust Pareto Set Identification with Contaminated Bandit Feedback
- arxiv url: http://arxiv.org/abs/2206.02666v1
- Date: Mon, 6 Jun 2022 15:09:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 15:21:20.024514
- Title: Robust Pareto Set Identification with Contaminated Bandit Feedback
- Title(参考訳): 汚染バンディットフィードバックを用いたロバストパレート集合同定
- Authors: Kerem Bozgan, Cem Tekin
- Abstract要約: マルチオブジェクト・マルチアーム・バンディット(MO-MAB)の報奨観測における問題点を考察する。
各アームプルでは、何らかの確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。
本稿では,ユーザの設定した精度要求を精度パラメータで緩和する,ロバストPSIのための中央値に基づくMO-MABアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.417030142037563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the Pareto set identification (PSI) problem in multi-objective
multi-armed bandits (MO-MAB) with contaminated reward observations. At each arm
pull, with some probability, the true reward samples are replaced with the
samples from an arbitrary contamination distribution chosen by the adversary.
We propose a median-based MO-MAB algorithm for robust PSI that abides by the
accuracy requirements set by the user via an accuracy parameter. We prove that
the sample complexity of this algorithm depends on the accuracy parameter
inverse squarely. We compare the proposed algorithm with a mean-based method
from MO-MAB literature on Gaussian reward distributions. Our numerical results
verify our theoretical expectations and show the necessity for robust algorithm
design in the adversarial setting.
- Abstract(参考訳): 我々は,多目的多腕バンディット (mo-mab) におけるパレート集合同定 (psi) 問題を考える。
各アームプルでは、何らかの確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。
本稿では,ユーザの設定した精度要求を精度パラメータで緩和する,ロバストPSIのための中央値に基づくMO-MABアルゴリズムを提案する。
このアルゴリズムのサンプルの複雑さは、逆の精度パラメータに依存することを証明している。
提案手法をmo-mab文献のガウス報酬分布に関する平均ベース手法と比較した。
計算結果は,我々の理論的期待を検証し,対角的条件下での頑健なアルゴリズム設計の必要性を示す。
関連論文リスト
- Pareto Set Identification With Posterior Sampling [14.121842087273167]
本稿では,PSIを有意な相関性を有する線形変換系で検討する。
既存のオラクルベースのアルゴリズムの計算コストを負担することなく,構造と相関を同時に扱うPSIPSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T18:15:38Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Stable Probability Weighting: Large-Sample and Finite-Sample Estimation
and Inference Methods for Heterogeneous Causal Effects of Multivalued
Treatments Under Limited Overlap [0.0]
異種因果効果を推定・推定するための実用的大サンプルおよび有限サンプル法を提案する。
安定確率重み付け(Stable Probability Weighting)という一般原理を考案する。
また、弱null仮説の一般クラスをテストするための新しい有限サンプル推論手法を提案する。
論文 参考訳(メタデータ) (2023-01-13T18:52:18Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。