論文の概要: A Confirmation of a Conjecture on the Feldman's Two-armed Bandit Problem
- arxiv url: http://arxiv.org/abs/2206.00821v1
- Date: Thu, 2 Jun 2022 01:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:56:30.220158
- Title: A Confirmation of a Conjecture on the Feldman's Two-armed Bandit Problem
- Title(参考訳): Feldmanの2本腕バンディット問題におけるコンジェクチャの確認
- Authors: Zengjing Chen, Yiwei Lin, Jichen Zhang
- Abstract要約: We consider the two-armed bandit problem proposed by Feldman。
一般分布と実用関数により、筋電図戦略の最適性に必要かつ十分な条件が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Myopic strategy is one of the most important strategies when studying bandit
problems. In this paper, we consider the two-armed bandit problem proposed by
Feldman. With general distributions and utility functions, we obtain a
necessary and sufficient condition for the optimality of the myopic strategy.
As an application, we could solve Nouiehed and Ross's conjecture for Bernoulli
two-armed bandit problems that myopic strategy stochastically maximizes the
number of wins.
- Abstract(参考訳): ミオピック戦略は、盗賊問題を研究する上で最も重要な戦略の1つである。
本稿では,feldman が提案した二本腕バンディット問題について考察する。
一般分布と実用関数により、筋電図戦略の最適性に必要かつ十分な条件が得られる。
応用として、ミオピック戦略が勝利数を確率的に最大化するベルヌーイの両腕バンディット問題に対するヌーイヘドとロスの予想を解くことができる。
関連論文リスト
- Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Continuous-in-time Limit for Bayesian Bandits [15.791732557395553]
本稿ではベイジアンセッティングにおける盗賊問題を再考する。
目的は、ベイズ側の後悔を最小限に抑える最適な政策を見つけることである。
最適ポリシーの計算は、問題水平線の長さや武器の数が大きい場合、しばしば難解である。
論文 参考訳(メタデータ) (2022-10-14T04:37:24Z) - Versatile Dueling Bandits: Best-of-both-World Analyses for Online
Learning from Preferences [28.79598714109439]
両環境および敵環境における$K$武器のデュエルバンディットの問題について検討する。
まず,マルチアームのバンディットに対して,任意の(一般的な)デュエル・バンドレットから新たなリダクションを提案する。
提案アルゴリズムは,コンドルチェット・ウィンナーベンチマークに対して最適な$O(sum_i = 1K fraclog TDelta_i)$ regret boundを達成した最初のアルゴリズムでもある。
論文 参考訳(メタデータ) (2022-02-14T13:37:23Z) - A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit [1.2183405753834562]
この研究は、両腕のベルヌーイ・バンディット問題(英語版)(Bernoulli bandit problem)の、腕の手段の和が1であるバージョンに対処する。
我々は, それぞれの問題を線形熱方程式の解に関連付けることにより, minmax最適後悔と擬似回帰の先行順序項を得る。
論文 参考訳(メタデータ) (2022-02-11T17:03:18Z) - Bridging Adversarial and Nonstationary Multi-armed Bandit [10.3206415401832]
2つの定式化は、典型的には時間変化の報酬分布を扱うために用いられる: 逆の帯域幅と非定常帯域幅である。
この2つを特別なケースとしてスムーズにブリッジする統一的な定式化を提供する。
一致した下界で最適な後悔を達成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-01-05T14:18:14Z) - Max-Min Grouped Bandits [48.62520520818357]
マルチアームバンディット問題であるmax-min grouped banditsを導入する。
ゴールは、最悪の腕が最高の平均報酬を持つグループを見つけることです。
この問題はレコメンデーションシステムのようなアプリケーションには関心がある。
論文 参考訳(メタデータ) (2021-11-17T01:59:15Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。