論文の概要: Bandit problems with fidelity rewards
- arxiv url: http://arxiv.org/abs/2111.13026v1
- Date: Thu, 25 Nov 2021 11:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 15:23:16.938493
- Title: Bandit problems with fidelity rewards
- Title(参考訳): 忠実度報酬を伴う帯域問題
- Authors: G\'abor Lugosi, Ciara Pike-Burke, Pierre-Andr\'e Savalle
- Abstract要約: フィデリティ・バンディット問題(英: fidelity bandits problem)とは、過去にプレイヤーがその腕に「ロヤル」したかによって、各腕の報酬がフィデリティ・報酬によって増強されるK$アームのバンディット問題の変種である。
忠誠ポイントモデルでは、余分な報酬の量は、これまで腕が演奏された回数に依存する。
サブスクリプションモデルでは、追加の報酬は腕の連続的な引き分けの数に依存する。
- 参考スコア(独自算出の注目度): 7.154621689269006
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The fidelity bandits problem is a variant of the $K$-armed bandit problem in
which the reward of each arm is augmented by a fidelity reward that provides
the player with an additional payoff depending on how 'loyal' the player has
been to that arm in the past. We propose two models for fidelity. In the
loyalty-points model the amount of extra reward depends on the number of times
the arm has previously been played. In the subscription model the additional
reward depends on the current number of consecutive draws of the arm. We
consider both stochastic and adversarial problems. Since single-arm strategies
are not always optimal in stochastic problems, the notion of regret in the
adversarial setting needs careful adjustment. We introduce three possible
notions of regret and investigate which can be bounded sublinearly. We study in
detail the special cases of increasing, decreasing and coupon (where the player
gets an additional reward after every $m$ plays of an arm) fidelity rewards.
For the models which do not necessarily enjoy sublinear regret, we provide a
worst case lower bound. For those models which exhibit sublinear regret, we
provide algorithms and bound their regret.
- Abstract(参考訳): フィデリティ・バンディッツ問題(英: fidelity bandits problem)は、各腕の報酬を、プレイヤーが過去にその腕にいかに「忠実」であったかに応じて追加の報酬を与えるフィデリティ・報酬によって増やす、k$-armed bandit問題(英語版)の変種である。
忠実度に関する2つのモデルを提案する。
忠誠ポイントモデルでは、余分な報酬の量は、これまで腕が演奏された回数に依存する。
サブスクリプションモデルでは、追加の報酬はarmの連続したドローの現在の数に依存する。
我々は確率的問題と敵対的問題の両方を考える。
単一武装戦略は確率的問題において必ずしも最適ではないため、敵意設定における後悔の概念は注意深く調整する必要がある。
我々は後悔の概念を3つ紹介し,それを調べる。
我々は、増加、減少、クーポン(腕の$m$のプレイごとにプレイヤーが追加報酬を受け取る)のロイヤリティ報酬の特別ケースを詳細に研究する。
サブリニアな後悔を必ずしも享受しないモデルに対しては、最悪のケースの下限を提供する。
サブ線形後悔を示すモデルに対しては、アルゴリズムを提供し、彼らの後悔を束縛する。
関連論文リスト
- Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate
Reward Hacking [63.666119126351965]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - Bandits Meet Mechanism Design to Combat Clickbait in Online
Recommendation [50.469872635246176]
我々は,マルチアームバンディット問題の戦略的変種について検討し,これを戦略的クリックバンディット(Click-bandit)と呼ぶ。
このモデルは、推奨項目の選択がクリックスルー率とクリック後の報酬の両方に依存するオンラインレコメンデーションのアプリケーションによって動機付けられている。
論文 参考訳(メタデータ) (2023-11-27T09:19:01Z) - Online Learning and Bandits with Queried Hints [28.270453093780382]
従来のオンライン学習とマルチアーム・バンディット(MAB)の問題について考察する。
残差が指数関数的に時間的地平線に依存するアルゴリズムを導出する。
オンライン線形および凸最適化のための時間非依存の後悔境界を達成するために,$k=2$ suffices を用いて探索を行うことが示される。
論文 参考訳(メタデータ) (2022-11-04T18:41:08Z) - Multiple-Play Stochastic Bandits with Shareable Finite-Capacity Arms [32.313813562222066]
マルチプレイマルチアームバンディット(MP-MAB)問題を共有アーム設定で一般化する。
各共有可能なアームは、有限報酬能力と'per-load'の報酬分布を有する。
本稿では,この問題に対処し,その後悔すべき上限を証明するためのオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T13:47:27Z) - The Pareto Frontier of Instance-Dependent Guarantees in Multi-Player
Multi-Armed Bandits with no Communication [10.446001329147112]
マルチプレイヤーのマルチアームバンディット問題について検討する。
この問題では、$m$プレーヤーは、合計報酬を$K > m$アームから最大化するために協力する。
ここで$Delta$は$m$-thと$m+1$-stのベストアームのギャップである。
論文 参考訳(メタデータ) (2022-02-19T18:19:36Z) - On Slowly-varying Non-stationary Bandits [25.305949034527202]
我々は、ゆっくりと変化する性質を持つ非定常包帯の動的後悔を考察する。
我々は、ゆっくりと変化する非定常帯域に対して、最初のインスタンス依存後悔上限を確立する。
我々のアルゴリズムは基本的にミニマックス最適であることを示す。
論文 参考訳(メタデータ) (2021-10-25T12:56:19Z) - Combinatorial Bandits without Total Order for Arms [52.93972547896022]
セット依存報酬分布を捕捉し、武器の合計順序を仮定しない報酬モデルを提案する。
我々は、新しい後悔分析を開発し、$Oleft(frack2 n log Tepsilonright)$ gap-dependent regret boundと$Oleft(k2sqrtn T log Tright)$ gap-dependent regret boundを示す。
論文 参考訳(メタデータ) (2021-03-03T23:08:59Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Tight Lower Bounds for Combinatorial Multi-Armed Bandits [72.56064196252498]
Combinatorial Multi-Armed Bandit 問題は、エージェントが各ラウンドで一組の腕を選択する、シーケンシャルな意思決定問題である。
最近提案されたGini重み付き滑らか度パラメータが単調報酬関数の下限を決定することを示す。
論文 参考訳(メタデータ) (2020-02-13T08:53:43Z) - Selfish Robustness and Equilibria in Multi-Player Bandits [25.67398941667429]
ゲームでは、複数のプレイヤーが同時に腕を引いて、同じ腕を同時に引っ張る場合、0の報酬で衝突する。
プレイヤーが集団報酬を最大化する協力的ケースは、主に考慮されてきたが、悪意のあるプレイヤーにとっては非常に重要かつ困難な問題である。
代わりに、社会的福祉を犠牲にして、個人の報酬を最大化するインセンティブを持つより自然な利己的なプレイヤーについて検討する。
論文 参考訳(メタデータ) (2020-02-04T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。