論文の概要: Improving the Knowledge Gradient Algorithm
- arxiv url: http://arxiv.org/abs/2310.17901v1
- Date: Fri, 27 Oct 2023 05:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:44:24.404512
- Title: Improving the Knowledge Gradient Algorithm
- Title(参考訳): 知識勾配アルゴリズムの改良
- Authors: Yang Le and Gao Siyang and Ho Chin Pang
- Abstract要約: 知識勾配 (KG) は、ベストアーム識別 (BAI) 問題に対する一般的な政策である。
このポリシーには制限があることを示し、アルゴリズムを不適切な方法で最適にする。
改良知識勾配(iKG)と呼ばれる新しいポリシーはアルゴリズム的に最適であることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The knowledge gradient (KG) algorithm is a popular policy for the best arm
identification (BAI) problem. It is built on the simple idea of always choosing
the measurement that yields the greatest expected one-step improvement in the
estimate of the best mean of the arms. In this research, we show that this
policy has limitations, causing the algorithm not asymptotically optimal. We
next provide a remedy for it, by following the manner of one-step look ahead of
KG, but instead choosing the measurement that yields the greatest one-step
improvement in the probability of selecting the best arm. The new policy is
called improved knowledge gradient (iKG). iKG can be shown to be asymptotically
optimal. In addition, we show that compared to KG, it is easier to extend iKG
to variant problems of BAI, with the $\epsilon$-good arm identification and
feasible arm identification as two examples. The superior performances of iKG
on these problems are further demonstrated using numerical examples.
- Abstract(参考訳): 知識勾配(KG)アルゴリズムは、ベストアーム識別(BAI)問題に対する一般的なポリシーである。
腕の最も良い平均の見積もりにおいて最も期待される1段階の改善をもたらす測定を常に選択するという単純なアイデアに基づいて構築されている。
本研究では,このポリシーには限界があり,アルゴリズムが漸近的に最適ではないことを示す。
次に、KGの1ステップ先見のやり方に従うことで、それに対する対策を提供し、代わりに、最高の腕を選択する確率において最大の1ステップ改善をもたらす測定方法を選択する。
新しい方針は、知識勾配改善(ikg)と呼ばれる。
iKGは漸近的に最適であることを示すことができる。
さらに, kgと比較して, bai の変種問題への ikg 拡張が容易であり,$\epsilon$-good のアーム識別と実現可能なアーム識別の2つの例がある。
これらの問題に対する ikg の優れた性能は数値的な例を用いてさらに示される。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Optimal Top-Two Method for Best Arm Identification and Fluid Analysis [15.353009236788262]
最適な腕識別問題に対する最適トップ2型アルゴリズムを提案する。
提案アルゴリズムは$delta rightarrow 0$として最適であることを示す。
論文 参考訳(メタデータ) (2024-03-14T06:14:07Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Differential Good Arm Identification [4.666048091337632]
本稿では,GAI(Good Arm Identification)と呼ばれる多腕バンディット問題の変種を対象とする。
GAIは純粋な探索用バンディット問題であり、できるだけ少ないサンプルで優れた腕を出力することを目的としている。
本稿では,DGAI - 優れた腕識別アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-13T14:28:21Z) - Choosing Answers in $\varepsilon$-Best-Answer Identification for Linear
Bandits [0.8122270502556374]
純粋探索問題では、情報を逐次収集して環境問題に答える。
平均値の高い解を選択すると、期待されるサンプルの複雑さの観点からアルゴリズムが最適に到達できないことを示す。
導出線形帯域における$varepsilon$-best-answer識別にベストアーム識別アルゴリズムを適用するための簡単な手法を開発した。
論文 参考訳(メタデータ) (2022-06-09T12:27:51Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Optimal Best-arm Identification in Linear Bandits [79.3239137440876]
サンプルの複雑さが既知のインスタンス固有の下界と一致する単純なアルゴリズムを考案する。
既存のベストアーム識別戦略とは異なり、我々のアルゴリズムは武器の数に依存しない停止規則を用いる。
論文 参考訳(メタデータ) (2020-06-29T14:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。