論文の概要: Robust Best-arm Identification in Linear Bandits
- arxiv url: http://arxiv.org/abs/2311.04731v1
- Date: Wed, 8 Nov 2023 14:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 15:35:46.453442
- Title: Robust Best-arm Identification in Linear Bandits
- Title(参考訳): 線形帯域におけるロバストベストアーム同定
- Authors: Wei Wang, Sattar Vakili, Ilija Bogunovic
- Abstract要約: 線形報酬の場合のロバストベストアーム識別問題(RBAI)について検討する。
線形報酬を持つロバストなベストアーム識別問題に対して、インスタンス依存の下位境界を提案する。
本アルゴリズムは, 高齢者の年齢帯におけるロバストな服用値の同定に有効であることが証明された。
- 参考スコア(独自算出の注目度): 25.91361349646875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the robust best-arm identification problem (RBAI) in the case of
linear rewards. The primary objective is to identify a near-optimal robust arm,
which involves selecting arms at every round and assessing their robustness by
exploring potential adversarial actions. This approach is particularly relevant
when utilizing a simulator and seeking to identify a robust solution for
real-world transfer. To this end, we present an instance-dependent lower bound
for the robust best-arm identification problem with linear rewards.
Furthermore, we propose both static and adaptive bandit algorithms that achieve
sample complexity that matches the lower bound. In synthetic experiments, our
algorithms effectively identify the best robust arm and perform similarly to
the oracle strategy. As an application, we examine diabetes care and the
process of learning insulin dose recommendations that are robust with respect
to inaccuracies in standard calculators. Our algorithms prove to be effective
in identifying robust dosage values across various age ranges of patients.
- Abstract(参考訳): 線形報酬の場合のロバストベストアーム識別問題(RBAI)について検討する。
第一の目的は、あらゆるラウンドで腕を選択し、潜在的な敵の行動を探索することでその頑健性を評価することを含む、最適に近いロバストな腕を特定することである。
この手法はシミュレータの利用と実世界の移動のための堅牢な解の同定に特に有用である。
この目的のために,線形報酬を伴うロバストな最適アーム識別問題に対して,インスタンス依存下限を提案する。
さらに,下界にマッチするサンプル複雑性を実現する静的および適応的帯域幅アルゴリズムを提案する。
合成実験において,本アルゴリズムは最適なロバストアームを効果的に同定し,オラクル戦略と同様の動作を行う。
応用として、標準電卓の不正確性に対して頑健な糖尿病ケアとインスリン投与推奨の学習過程について検討する。
本アルゴリズムは,様々な年齢範囲の患者においてロバストな服用量の同定に有効であることを証明した。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - SPRT-based Efficient Best Arm Identification in Stochastic Bandits [31.359578768463752]
本稿では,固定信頼度設定におけるマルチアームバンディットの腕識別問題について検討する。
バンドイットの指数族に対する既存のアルゴリズムは計算上の課題に直面している。
逐次テストに有効であることが知られている確率比ベースのテストを採用するフレームワークが提案されている。
論文 参考訳(メタデータ) (2022-07-22T15:54:53Z) - Active Learning with Safety Constraints [25.258564629480063]
対話型環境における安全な判断を学習することの複雑さについて検討する。
適応的設計に基づくアルゴリズムを提案し、腕が安全でないことを示すことの難しさと、準最適であることのトレードオフを効果的に示す。
論文 参考訳(メタデータ) (2022-06-22T15:45:38Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。