論文の概要: Contextual Bandit with Missing Rewards
- arxiv url: http://arxiv.org/abs/2007.06368v2
- Date: Sun, 19 Jul 2020 00:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:28:33.286711
- Title: Contextual Bandit with Missing Rewards
- Title(参考訳): 報酬を欠いたコンテクスト・バンディット
- Authors: Djallel Bouneffouf, Sohini Upadhyay and Yasaman Khazaeni
- Abstract要約: 文脈に基づく決定に関連付けられた報酬が必ずしも観測されないような、文脈的包帯問題の新しい変種を考察する。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションを含む特定のオンライン設定によって動機付けられている。
本稿では,クラスタリングのような教師なし学習機構と,標準的な文脈的帯域幅アプローチを組み合わせることを提案する。
- 参考スコア(独自算出の注目度): 27.066965426355257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a novel variant of the contextual bandit problem (i.e., the
multi-armed bandit with side-information, or context, available to a
decision-maker) where the reward associated with each context-based decision
may not always be observed("missing rewards"). This new problem is motivated by
certain online settings including clinical trial and ad recommendation
applications. In order to address the missing rewards setting, we propose to
combine the standard contextual bandit approach with an unsupervised learning
mechanism such as clustering. Unlike standard contextual bandit methods, by
leveraging clustering to estimate missing reward, we are able to learn from
each incoming event, even those with missing rewards. Promising empirical
results are obtained on several real-life datasets.
- Abstract(参考訳): 我々は、文脈に基づく決定に関連する報酬が常に観測されないような、文脈的包帯問題(例えば、サイドインフォメーション付きマルチアームバンディット、あるいは意思決定者が利用できるコンテキスト)の新たな変種を考察する("missing rewards")。
この新しい問題は、臨床試験や広告レコメンデーションアプリケーションなど、特定のオンライン設定に動機づけられている。
不足した報酬設定に対処するために,標準的なコンテキストバンディットアプローチとクラスタリングのような教師なし学習機構を組み合わせることを提案する。
標準的なコンテキスト的バンディットメソッドとは異なり、クラスタリングを活用して、不足する報酬を見積もることで、受信する各イベントから、不足する報酬からも学ぶことができます。
いくつかの実生活データセットで実験結果が得られた。
関連論文リスト
- Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - $\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。
文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。
本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文 参考訳(メタデータ) (2023-10-22T03:42:59Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Online learning with Corrupted context: Corrupted Contextual Bandits [19.675277307158435]
我々は文脈的盗賊問題の新しい変種を考える。
この問題は、臨床試験や広告レコメンデーションなどのオンライン設定によって動機付けられている。
本稿では,従来のマルチアームバンディット機構と標準的なコンテキスト的バンディットアプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-06-26T19:53:26Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Self-Supervised Contextual Bandits in Computer Vision [4.165029665035158]
コンテキストバンディット(Contextual bandits)は、機械学習の実践者が直面する一般的な問題である。
本稿では,文脈的包括的目標と自己監督的目標を組み合わせることで,この問題に対処する新たなアプローチを提案する。
8種類のコンピュータビジョンデータセットを用いた結果,累積報酬が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-18T22:06:34Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。