論文の概要: Choosing Answers in $\varepsilon$-Best-Answer Identification for Linear
Bandits
- arxiv url: http://arxiv.org/abs/2206.04456v1
- Date: Thu, 9 Jun 2022 12:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 20:53:22.117742
- Title: Choosing Answers in $\varepsilon$-Best-Answer Identification for Linear
Bandits
- Title(参考訳): 線形帯域に対する$\varepsilon$-Best-Answer Identificationにおける回答の選択
- Authors: Marc Jourdan and R\'emy Degenne
- Abstract要約: 純粋探索問題では、情報を逐次収集して環境問題に答える。
平均値の高い解を選択すると、期待されるサンプルの複雑さの観点からアルゴリズムが最適に到達できないことを示す。
導出線形帯域における$varepsilon$-best-answer識別にベストアーム識別アルゴリズムを適用するための簡単な手法を開発した。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In pure-exploration problems, information is gathered sequentially to answer
a question on the stochastic environment. While best-arm identification for
linear bandits has been extensively studied in recent years, few works have
been dedicated to identifying one arm that is $\varepsilon$-close to the best
one (and not exactly the best one). In this problem with several correct
answers, an identification algorithm should focus on one candidate among those
answers and verify that it is correct. We demonstrate that picking the answer
with highest mean does not allow an algorithm to reach asymptotic optimality in
terms of expected sample complexity. Instead, a \textit{furthest answer} should
be identified. Using that insight to choose the candidate answer carefully, we
develop a simple procedure to adapt best-arm identification algorithms to
tackle $\varepsilon$-best-answer identification in transductive linear
stochastic bandits. Finally, we propose an asymptotically optimal algorithm for
this setting, which is shown to achieve competitive empirical performance
against existing modified best-arm identification algorithms.
- Abstract(参考訳): 純粋探索問題では、情報を逐次収集して確率環境に関する質問に答える。
線形包帯のベストアーム識別は近年広く研究されているが、最高の腕に対して$\varepsilon$-closeの腕を識別する研究はほとんどない(正確にはベストではない)。
複数の正解を持つこの問題において、同定アルゴリズムは、それらの解のうちの1つの候補に注目して、正解を検証すべきである。
平均値が最も高い解を選べば,サンプルの複雑さの観点からアルゴリズムの漸近的最適性が得られないことを示す。
代わりに、 \textit{furthest answer} を識別する必要がある。
提案手法を用いて, 提案手法を用いて, 最良アーム識別アルゴリズムを適用し, 伝達型線形確率バンディットにおける$\varepsilon$-best-answer識別に取り組む。
最後に,この設定に対して漸近的に最適なアルゴリズムを提案する。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Dual-Directed Algorithm Design for Efficient Pure Exploration [11.492736493413103]
有限の選択肢からなる逐次適応実験の文脈における純粋探索問題を考える。
サンプルの最適な割り当てに対する強い収束の概念の観点から、最適性の十分な条件を導出する。
我々のアルゴリズムは、$epsilon$-best-armの識別としきい値の帯域幅問題に最適である。
論文 参考訳(メタデータ) (2023-10-30T07:29:17Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Gamification of Pure Exploration for Linear Bandits [34.16123941778227]
線形バンディットの文脈において、ベストアーム識別を含む活発な純粋探索環境について検討する。
標準的なマルチアームバンディットには最適アルゴリズムが存在するが、リニアバンディットにおけるベストアーム識別のためのアルゴリズムの存在は明白である。
線形帯域における固定信頼純粋探索のための第一の洞察的最適アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-07-02T08:20:35Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z) - Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a
Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。
ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。
このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文 参考訳(メタデータ) (2020-06-11T20:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。