論文の概要: Robust Pareto Set Identification with Contaminated Bandit Feedback
- arxiv url: http://arxiv.org/abs/2206.02666v2
- Date: Tue, 19 Nov 2024 14:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:21.922359
- Title: Robust Pareto Set Identification with Contaminated Bandit Feedback
- Title(参考訳): 汚染帯域フィードバックを用いたロバストパレートセット同定
- Authors: İlter Onat Korkmaz, Efe Eren Ceyani, Kerem Bozgan, Cem Tekin,
- Abstract要約: マルチオブジェクト・マルチアーム・バンディット(MO-MAB)の報奨観測における問題点を考察する。
本稿では, 中央値に基づく適応除去アルゴリズムを提案し, 終端に設定した(アルファ, デルタ)-PACを返却する。
汚染確率が減少するにつれて、MO-MABでよく知られたサンプルの複雑さが回復する。
- 参考スコア(独自算出の注目度): 7.049738935364297
- License:
- Abstract: We consider the Pareto set identification (PSI) problem in multi-objective multi-armed bandits (MO-MAB) with contaminated reward observations. At each arm pull, with some fixed probability, the true reward samples are replaced with the samples from an arbitrary contamination distribution chosen by an adversary. We consider ({\alpha}, {\delta})-PAC PSI and propose a sample median-based multi-objective adaptive elimination algorithm that returns an ({\alpha}, {\delta})- PAC Pareto set upon termination with a sample complexity bound that depends on the contamination probability. As the contamination probability decreases, we recover the wellknown sample complexity results in MO-MAB. We compare the proposed algorithm with a mean-based method from MO-MAB literature, as well as an extended version that uses median estimators, on several PSI problems under adversarial corruptions, including review bombing and diabetes management. Our numerical results support our theoretical findings and demonstrate that robust algorithm design is crucial for accurate PSI under contaminated reward observations.
- Abstract(参考訳): 多目的多武装バンディット(MO-MAB)におけるパレートセット識別(PSI)問題について検討した。
各アームプルでは、一定の確率で真の報酬サンプルが、敵が選択した任意の汚染分布のサンプルに置き換えられる。
我々は, ({\alpha}, {\delta})-PAC PSIを考察し, ({\alpha}, {\delta})-PAC Paretoを汚染確率に依存するサンプル複雑性で終了に設定したサンプル中央値に基づく多目的適応除去アルゴリズムを提案する。
汚染確率が減少するにつれて、MO-MABでよく知られたサンプルの複雑さが回復する。
提案手法をMO-MAB文献からの平均値に基づく手法と比較し, 検証爆撃や糖尿病管理など, 敵対的腐敗下でのPSI問題に対する中央値推定器を用いた拡張版と比較した。
数値計算の結果から, 汚染された報奨観測の下では, 堅牢なアルゴリズム設計が正確なPSIに不可欠であることが示唆された。
関連論文リスト
- Uncertainty Estimation and Out-of-Distribution Detection for LiDAR Scene Semantic Segmentation [0.6144680854063939]
新しい環境で安全なナビゲーションを行うには、自動運転車やロボットが環境を正確に解釈する必要がある。
そこで本研究では,分布内(ID)と分布外(OOD)を区別する手法を提案する。
一つの決定論的モデルの特徴空間を用いて、疫学とアレター的不確実性の両方を定量化する。
論文 参考訳(メタデータ) (2024-10-11T10:19:24Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Bandit Pareto Set Identification: the Fixed Budget Setting [12.326452468513228]
マルチアームバンディットモデルにおける純粋探索問題について検討する。
目的は、平均値が他の分布よりも均一に悪くない分布を特定することである。
論文 参考訳(メタデータ) (2023-11-07T13:43:18Z) - A General Recipe for the Analysis of Randomized Multi-Armed Bandit
Algorithms [16.114012813668932]
我々は2つの有名なバンディットアルゴリズム、Minimum Empirical Divergence (MED)とThompson Sampling (TS)を再検討する。
MEDがこれらのモデルすべてに最適であることを示すとともに、最適性がすでに知られているTSアルゴリズムの簡単な後悔解析も提供する。
論文 参考訳(メタデータ) (2023-03-10T16:43:48Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。