論文の概要: Algorithms for slate bandits with non-separable reward functions
- arxiv url: http://arxiv.org/abs/2004.09957v1
- Date: Tue, 21 Apr 2020 12:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 05:45:28.652650
- Title: Algorithms for slate bandits with non-separable reward functions
- Title(参考訳): 非分離報酬関数を有するスレートバンディットのアルゴリズム
- Authors: Jason Rhuggenaath, Alp Akcay, Yingqian Zhang and Uzay Kaymak
- Abstract要約: 本研究では,スレートレベルの報酬を決定する関数が分離不能なスレートバンディット問題について検討する。
我々の主な貢献は、時間軸に関していまだにサブ線形後悔を持つアルゴリズムの設計である。
- 参考スコア(独自算出の注目度): 3.614984020677526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a slate bandit problem where the function that
determines the slate-level reward is non-separable: the optimal value of the
function cannot be determined by learning the optimal action for each slot. We
are mainly concerned with cases where the number of slates is large relative to
the time horizon, so that trying each slate as a separate arm in a traditional
multi-armed bandit, would not be feasible. Our main contribution is the design
of algorithms that still have sub-linear regret with respect to the time
horizon, despite the large number of slates. Experimental results on simulated
data and real-world data show that our proposed method outperforms popular
benchmark bandit algorithms.
- Abstract(参考訳): 本稿では,スレートレベルの報酬を決定する関数が分離不可能であるスレートバンディット問題について検討する。
我々は,スレート数が時間軸に対して大きい場合が主であり,従来の多腕バンディットでは各スレートを別個のアームとして試すことは不可能である。
我々の主な貢献は、多くのスレートにもかかわらず、時間軸に関してまだサブ線形後悔を持つアルゴリズムの設計である。
シミュレーションデータと実世界データを用いた実験の結果,提案手法がベンチマークバンディットアルゴリズムよりも優れていることがわかった。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Zero-Inflated Bandits [11.60342504007264]
ゼロ膨らんだ帯状地について検討し、報酬をゼロ膨らんだ分布と呼ばれる古典的な半パラメトリック分布としてモデル化する。
一般報奨仮定と準ガウス報奨を含む文脈一般化線形報奨を併用した多腕包帯の両面における後悔境界を導出する。
多くの設定において、我々のアルゴリズムの後悔率は、最小限の最適か最先端のどちらかである。
論文 参考訳(メタデータ) (2023-12-25T03:13:21Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Dual Instrumental Method for Confounded Kernelized Bandits [0.0]
文脈的帯域幅問題は、様々な分野の幅広い応用のフレームワークである。
本稿では,騒音がコンテキストと報酬の両方に影響を与える潜在的共同設立者となる,包括的バンドイット問題を提案する。
双対楽器変数回帰は真の報酬関数を正しく識別できることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:25:57Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Optimal Gradient-based Algorithms for Non-concave Bandit Optimization [76.57464214864756]
この研究は、未知の報酬関数が非可逆であるようなバンドイット問題の大群を考察する。
我々のアルゴリズムは、非常に一般化されたゼロ階最適化のパラダイムに基づいている。
標準的な楽観的アルゴリズムは次元因子によって準最適であることを示す。
論文 参考訳(メタデータ) (2021-07-09T16:04:24Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。