論文の概要: Robust Pareto Set Identification with Contaminated Bandit Feedback
- arxiv url: http://arxiv.org/abs/2206.02666v2
- Date: Tue, 19 Nov 2024 14:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:21.922359
- Title: Robust Pareto Set Identification with Contaminated Bandit Feedback
- Title(参考訳): 汚染帯域フィードバックを用いたロバストパレートセット同定
- Authors: İlter Onat Korkmaz, Efe Eren Ceyani, Kerem Bozgan, Cem Tekin,
- Abstract要約: マルチオブジェクト・マルチアーム・バンディット(MO-MAB)の報奨観測における問題点を考察する。
本稿では, 中央値に基づく適応除去アルゴリズムを提案し, 終端に設定した(アルファ, デルタ)-PACを返却する。
汚染確率が減少するにつれて、MO-MABでよく知られたサンプルの複雑さが回復する。
- 参考スコア(独自算出の注目度): 7.049738935364297
- License:
- Abstract: We consider the Pareto set identification (PSI) problem in multi-objective multi-armed bandits (MO-MAB) with contaminated reward observations. At each arm pull, with some fixed probability, the true reward samples are replaced with the samples from an arbitrary contamination distribution chosen by an adversary. We consider ({\alpha}, {\delta})-PAC PSI and propose a sample median-based multi-objective adaptive elimination algorithm that returns an ({\alpha}, {\delta})- PAC Pareto set upon termination with a sample complexity bound that depends on the contamination probability. As the contamination probability decreases, we recover the wellknown sample complexity results in MO-MAB. We compare the proposed algorithm with a mean-based method from MO-MAB literature, as well as an extended version that uses median estimators, on several PSI problems under adversarial corruptions, including review bombing and diabetes management. Our numerical results support our theoretical findings and demonstrate that robust algorithm design is crucial for accurate PSI under contaminated reward observations.
- Abstract(参考訳): 多目的多武装バンディット(MO-MAB)におけるパレートセット識別(PSI)問題について検討した。
各アームプルでは、一定の確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。
我々は, ({\alpha}, {\delta})-PAC PSIを考察し, ({\alpha}, {\delta})-PAC Paretoを汚染確率に依存するサンプル複雑性で終了に設定したサンプル中央値に基づく多目的適応除去アルゴリズムを提案する。
汚染確率が減少するにつれて、MO-MABでよく知られたサンプルの複雑さが回復する。
提案手法をMO-MAB文献からの平均値に基づく手法と比較し, 検証爆撃や糖尿病管理など, 敵対的腐敗下でのPSI問題に対する中央値推定器を用いた拡張版と比較した。
数値計算の結果から, 汚染された報奨観測の下では, 堅牢なアルゴリズム設計が正確なPSIに不可欠であることが示唆された。
関連論文リスト
- Pareto Set Identification With Posterior Sampling [14.121842087273167]
本稿では,PSIを有意な相関性を有する線形変換系で検討する。
既存のオラクルベースのアルゴリズムの計算コストを負担することなく,構造と相関を同時に扱うPSIPSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T18:15:38Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Stable Probability Weighting: Large-Sample and Finite-Sample Estimation
and Inference Methods for Heterogeneous Causal Effects of Multivalued
Treatments Under Limited Overlap [0.0]
異種因果効果を推定・推定するための実用的大サンプルおよび有限サンプル法を提案する。
安定確率重み付け(Stable Probability Weighting)という一般原理を考案する。
また、弱null仮説の一般クラスをテストするための新しい有限サンプル推論手法を提案する。
論文 参考訳(メタデータ) (2023-01-13T18:52:18Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。