論文の概要: Predictive Bandits
- arxiv url: http://arxiv.org/abs/2004.01141v1
- Date: Thu, 2 Apr 2020 17:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:35:45.996799
- Title: Predictive Bandits
- Title(参考訳): 予測帯域
- Authors: Simon Lindst{\aa}hl, Alexandre Proutiere, Andreas Johnsson
- Abstract要約: 我々は,予測的盗賊と呼ばれる,新たな盗賊問題を紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうかを決定する。
意思決定者は、ラウンドで実際にプレイされる腕を選択する。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and study a new class of stochastic bandit problems, referred to
as predictive bandits. In each round, the decision maker first decides whether
to gather information about the rewards of particular arms (so that their
rewards in this round can be predicted). These measurements are costly, and may
be corrupted by noise. The decision maker then selects an arm to be actually
played in the round. Predictive bandits find applications in many areas; e.g.
they can be applied to channel selection problems in radio communication
systems. In this paper, we provide the first theoretical results about
predictive bandits, and focus on scenarios where the decision maker is allowed
to measure at most one arm per round. We derive asymptotic instance-specific
regret lower bounds for these problems, and develop algorithms whose regret
match these fundamental limits. We illustrate the performance of our algorithms
through numerical experiments. In particular, we highlight the gains that can
be achieved by using reward predictions, and investigate the impact of the
noise in the corresponding measurements.
- Abstract(参考訳): 我々は,予測的バンディットと呼ばれる確率的バンディット問題の新たなクラスを紹介し,研究する。
各ラウンドで、意思決定者はまず、特定の武器の報酬に関する情報を集めるかどうか(このラウンドでの報酬を予測することができる)を決定する。
これらの測定は高価であり、ノイズによって破損する可能性がある。
次に意思決定者は、実際にラウンドでプレイされる腕を選択する。
予測バンディットは、無線通信システムにおけるチャネル選択問題に適用できるなど、多くの領域で応用できる。
本稿では,予測帯域に関する最初の理論的結果を提供し,意思決定者が1ラウンドあたりの最大1アームで測定できるシナリオに焦点を当てる。
これらの問題に対する漸近的なインスタンス固有の後悔の限界を導出し、後悔がこれらの基本的な限界に合致するアルゴリズムを開発する。
本稿では,数値実験によるアルゴリズムの性能について述べる。
特に,報奨予測を用いて得られるゲインに着目し,対応する測定結果における騒音の影響について検討する。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Pure Exploration of Causal Bandits [9.77519365079468]
因果バンディット問題は多腕バンディットと因果推論を統合する。
オンライン学習課題:未知の因果推論分布を持つ因果グラフを与えられた場合、1つの変数に介入するか、介入しないかを選択できる。
3種類の因果モデルに対して、第一のギャップ依存完全適応純粋探索アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-16T02:19:37Z) - A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit [1.2183405753834562]
この研究は、両腕のベルヌーイ・バンディット問題(英語版)(Bernoulli bandit problem)の、腕の手段の和が1であるバージョンに対処する。
我々は, それぞれの問題を線形熱方程式の解に関連付けることにより, minmax最適後悔と擬似回帰の先行順序項を得る。
論文 参考訳(メタデータ) (2022-02-11T17:03:18Z) - Breaking the Moments Condition Barrier: No-Regret Algorithm for Bandits
with Super Heavy-Tailed Payoffs [27.636407641546914]
実験的な中央値列の経験的平均を計算し,確率変数を推定する,新しい頑健な統計推定器を提案する。
非常に重みのある雑音であっても, 後悔の限界がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2021-10-26T17:30:44Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Price of Incentivizing Exploration: A Characterization via Thompson
Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。
我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文 参考訳(メタデータ) (2020-02-03T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。