論文の概要: Best of both worlds: Stochastic & adversarial best-arm identification
- arxiv url: http://arxiv.org/abs/2604.14860v1
- Date: Thu, 16 Apr 2026 10:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.849918
- Title: Best of both worlds: Stochastic & adversarial best-arm identification
- Title(参考訳): 両世界のベスト:確率的・敵対的ベストアーム識別
- Authors: Yasin Abbasi-Yadkori, Peter L. Bartlett, Victor Gabillon, Alan Malek, Michal Valko,
- Abstract要約: 任意かつ潜在的に敵意的な報酬を伴って,バンドイットのベストアーム識別について検討した。
単純なランダムな一様学習者は、逆シナリオにおける最適誤差率を求める。
このような学習者を設計することは一般に不可能であることを示す。
- 参考スコア(独自算出の注目度): 37.84473422648414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study bandit best-arm identification with arbitrary and potentially adversarial rewards. A simple random uniform learner obtains the optimal rate of error in the adversarial scenario. However, this type of strategy is suboptimal when the rewards are sampled stochastically. Therefore, we ask: Can we design a learner that performs optimally in both the stochastic and adversarial problems while not being aware of the nature of the rewards? First, we show that designing such a learner is impossible in general. In particular, to be robust to adversarial rewards, we can only guarantee optimal rates of error on a subset of the stochastic problems. We give a lower bound that characterizes the optimal rate in stochastic problems if the strategy is constrained to be robust to adversarial rewards. Finally, we design a simple parameter-free algorithm and show that its probability of error matches (up to log factors) the lower bound in stochastic problems, and it is also robust to adversarial ones.
- Abstract(参考訳): 任意かつ潜在的に敵意的な報酬を伴って,バンドイットのベストアーム識別について検討した。
単純なランダムな一様学習者は、逆シナリオにおける最適誤差率を求める。
しかし、報酬が確率的にサンプリングされる場合、このような戦略は準最適である。
そこで我々は,報奨の性質を知らずに,確率的問題と対人的問題の両方で最適に機能する学習者を設計できるのか,と問う。
まず,このような学習者を設計することは一般的に不可能であることを示す。
特に、敵の報酬に頑健であるためには、確率問題の部分集合において最適なエラー率を保証できるのみである。
戦略が敵の報酬に対して堅牢であるように制約されている場合、確率的問題の最適率を特徴付ける下限を与える。
最後に、単純なパラメータフリーアルゴリズムを設計し、その誤差の確率が確率的問題の下位境界と一致することを示す。
関連論文リスト
- Bandit-Feedback Online Multiclass Classification: Variants and Tradeoffs [32.29254118429081]
我々は,帯域幅フィードバックの下での最適誤りが,全情報ケースの最適誤りよりも少なくとも$O(k)$倍高いことを示す。
また、ランダム化学習者と決定論的学習者の間のギャップに対して、$tildeTheta(k)$のほぼ最適な境界を示す。
論文 参考訳(メタデータ) (2024-02-12T07:20:05Z) - Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Locally Optimal Fixed-Budget Best Arm Identification in Two-Armed Gaussian Bandits with Unknown Variances [10.470114319701576]
本稿では,適応実験における分散を推定し,推定標準偏差の比率でアームを描画する手法を提案する。
以上の結果から,小ギャップ体制を特徴とする最悪のシナリオでは,変動が未知であっても,推定分散を利用する戦略が最適であることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T03:28:49Z) - Optimal Fixed-Budget Best Arm Identification using the Augmented Inverse
Probability Estimator in Two-Armed Gaussian Bandits with Unknown Variances [27.122181278234617]
両腕のガウスバンドにおける固定予算ベストアーム識別問題について検討する。
本稿では,アームドローの目標配置確率を推定し,ランダム化サンプリング(RS)を用いたサンプリングルールを含む戦略を提案する。
提案手法は,サンプルサイズが無限大になり,両腕間のギャップがゼロとなる場合に,不可視的に最適であることを示す。
論文 参考訳(メタデータ) (2022-01-12T13:38:33Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Attacks Which Do Not Kill Training Make Adversarial Learning Stronger [85.96849265039619]
ミニマックス定式化に基づく敵対的訓練は、訓練されたモデルの敵対的堅牢性を得るのに必要である。
敵のトレーニングは、現在のモデルを更新するために、確実な敵のデータを取り入れることである、と我々は主張する。
論文 参考訳(メタデータ) (2020-02-26T01:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。